JP2024031442A

JP2024031442A - 音声処理装置、音声処理方法、音声処理プログラム及び通信システム

Info

Publication number: JP2024031442A
Application number: JP2022134991A
Authority: JP
Inventors: 一義鈴木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2024-03-07

Abstract

【課題】話者が発した特定の音声を、受信側で個別に設定登録した音声に、変換することができるようにする。【解決手段】本開示の音声処理装置は、第１の語の音声波形を含む第１の音声ファイルと、第１の語に代えて置き換える第２の語の音声波形を含む第２の音声ファイルとを関連付けて保存する音声ファイル保存手段と、音声信号の受信側で、第１の音声ファイル及び第２の音声ファイルを作成して、音声ファイル保存手段に保存する音声ファイル登録手段と、音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第１の語の音声波形が含まれているときに、第１の語の音声波形を、当該第１の語に関連付けられた第２の語の音声波形に変換する音声変換手段と、を備える。【選択図】図１

Description

この開示は、音声処理装置、音声処理方法、音声処理プログラム及び通信システムに関し、例えば、ネットワークを介した会議システムに適用し得るものである。

オンライン会議システムが急速に普及している。例えば、講演会、講習会、授業等にもオンライン会議システムが用いられている。その場合、１人の講師が発した音声を、複数の受講者の通信端末に向けてそのまま送信するのが一般的である。

従来、ネットワークを介した音声通信システムにおいて、ある話者の音声を変換する技術として、例えば、特許文献１、２に記載されているものがある。

特許文献１の記載技術は、コールセンターなどで使用されるシステムである。例えば、オペレータがお客様と話しているとき、特定の言葉（例えば、クレームとなる禁止語等）をお客様に聞こえないようにするため、電話での会話内容から特定の言葉を検出すると、ダミー音を入れるというものである。

また、特許文献２には、方言を含む会話音声から、音声認識により方言を特定し、事前に登録してある標準語に変換して合成することが開示されている。

特開２０１０－１０３７５１号公報特開平９－２４４６８２号公報

上述した従来技術は１対１の通信であるため、話者が発した特定の音声を、別の音声又はダミー音に変換することができるが、会議システム等のように１対Ｎの通信、又はＮ×Ｍの通信では、話者の特定の音声を変換することは難しい。

例えば、会議システムを利用した講義で、講師が「皆さん」と多数に向けた呼びかけた言葉を、それぞれの受講者の名前に個別に変換することは難しい。会議システムを利用した講義は、対面講義と異なり臨場感がなく、味気なく感じられることが多い。したがって、受講者が、より親近感や関心をもって講義を受けてもらうためにも、特定の音声を受信側で変換できるようにすることが求められている。

そこで、本開示は、上述した課題に鑑み、話者が発した特定の音声を、受信側で個別に設定登録した音声に、変換することができる音声処理装置、通信システム、音声処理方法、及び音声処理プログラムを提供しようとするものである。

かかる課題を解決するため、第１の本開示の音声処理装置は、（１）第１の語の音声波形を含む第１の音声ファイルと、第１の語に代えて置き換える第２の語の音声波形を含む第２の音声ファイルとを関連付けて保存する音声ファイル保存手段と、（２）音声信号の受信側で、第１の音声ファイル及び第２の音声ファイルを作成して、音声ファイル保存手段に保存する音声ファイル登録手段と、（３）音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第１の語の音声波形が含まれているときに、第１の語の音声波形を、当該第１の語に関連付けられた第２の語の音声波形に変換する音声変換手段と、を備える。

第２の本開示の音声処理方法は、（１）第１の語の音声波形を含む第１の音声ファイルと、第１の語に代えて置き換える第２の語の音声波形を含む第２の音声ファイルとを関連付けて保存する音声ファイル保存手段を備え、（２）音声ファイル登録手段が、音声信号の受信側で、第１の音声ファイル及び第２の音声ファイルを作成して、音声ファイル保存手段に保存し、（３）音声変換手段が、音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第１の語の音声波形が含まれているときに、第１の語の音声波形を、当該第１の語に関連付けられた第２の語の音声波形に変換する。

第３の本開示の音声処理プログラムは、コンピュータを、（１）第１の語の音声波形を含む第１の音声ファイルと、第１の語に代えて置き換える第２の語の音声波形を含む第２の音声ファイルとを関連付けて保存する音声ファイル保存手段と、（２）音声信号の受信側で、第１の音声ファイル及び第２の音声ファイルを作成して、音声ファイル保存手段に保存する音声ファイル登録手段と、（３）音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第１の語の音声波形が含まれているときに、第１の語の音声波形を、当該第１の語に関連付けられた第２の語の音声波形に変換する抽出語音声変換手段として機能させる。

第４の本開示の通信システムは、ネットワークを介して、１対Ｎ又はＮ対Ｍにて音声通信を行なう通信システムにおいて、複数の通信端末のそれぞれは、音声信号を受信する受信側として、第１の語の音声波形を含む第１の音声ファイルと、第１の語に代えて置き換える第２の語の音声波形を含む第２の音声ファイルとを関連付けて保存する音声ファイル保存手段と、音声信号の受信側で、第１の音声ファイル及び第２の音声ファイルを作成して、音声ファイル保存手段に保存する音声ファイル登録手段と、音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第１の語の音声波形が含まれているときに、第１の語の音声波形を、当該第１の語に関連付けられた第２の語の音声波形に変換する抽出語音声変換手段と、を備える。

本開示によれば、話者が発した特定の音声を、受信側で個別に設定登録した音声に変換することができる。

第１の実施形態に係る音声変換部の内部構成を示す内部構成図である。第１の実施形態のオンライン会議システムの全体構成を示す全体構成図である。第１の実施形態に係る通信端末の内部構成を示す内部構成図である。第１の実施形態に係る通信端末における音声処理部の構成を示す構成図である。第１の実施形態において、登録された変換情報に基づいて、音声ファイルを生成する処理を説明するフローチャートである。第１の実施形態に係る通信端末における音声処理方法の動作を示すフローチャートである。第２の実施形態に係る音声変換部の内部構成を示す内部構成図である。第２の実施形態において、受信した音声を録音した録音音声から、抽出語の音声ファイルを生成する処理を示すフローチャートである。第２の実施形態において、マイク音声を録音した録音音声から、変換語の音声ファイルを生成する処理を示すフローチャートである。変形実施形態において、ある地方の方言の言葉と標準語との間で変換できる辞書（音声ファイル）を選択可能とする処理を説明する説明図である。

（Ａ）第１の実施形態
以下では、本開示に係る音声処理装置、音声処理方法、音声処理プログラム及び通信システムの第１の実施形態を、図面を参照して説明する。

第１の実施形態は、ネットワークを介して、多拠点で音声と映像を使用したオンライン会議システム及び受信側の通信端末に、本開示を適用する場合を例示する。

（Ａ－１）第１の実施形態の構成
（Ａ－１－１）全体構成
図２は、第１の実施形態のオンライン会議システム（通信システム）の全体構成を示す全体構成図である。

ここでは、オンライン会議システム（以下、「会議システム」とも呼ぶ。）９を利用して、１人の講師Ｔが複数の受講者ＳＡ～ＳＮ（Ｎは正の整数）に対して講義を行なう場合を例示する。なお、講義に限らず、１対Ｎ、又はＮ対Ｍ（Ｍは正の整数）通信の、会議、セミナー、講演会、講習等に会議システム９を広く適用できる。

図２に示すように、第１の実施形態の会議システム９は、ネットワークＮＴを介して、講師Ｔが用いる通信端末２と、各受講者ＳＡ～ＳＮが用いる通信端末１－１～１－Ｎと、会議サーバ３とを備える。

通信端末１－１～１－Ｎについて、特定の通信端末を特定せず、共通する構成を説明するときには「通信端末１」と表記して説明する。

会議システム９は、ネットワークＮＴを介して、多拠点間で、音声、映像、テキストデータなどを送受信するものである。会議システム９は、インターネット等のネットワークＮＴを介してパーソナルコンピュータやスマートフォン等の端末で音声、映像等を通信するウェブ会議システム、専用回線や専用デバイスで通信するテレビ会議システムのいずれにも適用できる。

会議サーバ３は、ユーザのログイン情報の管理、会議室の設定、スケジュール等を行なうサーバである。会議サーバ３は、オンプレミス型のサーバであってもよいし、クラウド側のサーバであってもよい。

通信端末２は、講師Ｔが使用する通信端末であり、通信機能を有する情報処理端末である。例えば、パーソナルコンピュータ、スマートフォン、タブレット端末、携帯端末等を、通信端末２として適用できる。通信端末２は、例えば会議アプリケーションソフトウェア（例えば、会議サーバ３に対するクライアントとして機能するソフトウェア）をインストールすることで機能する。また通信端末２は、ブラウザ機能を用いて、会議サーバ３に対するクライアント（会議端末）として機能するようにしてもよい。さらに、通信端末２はテレビ会議用の専用デバイスであってもよい。通信端末２は、会議開催のホストとして機能し、例えば、会議室の予約、設定、参加者の管理などを行なう。

通信端末１は、各受講者が使用する通信端末であり、通信機能を有する情報処理端末である。例えば、パーソナルコンピュータ、スマートフォン、タブレット端末、携帯端末等を、通信端末１として適用できる。通信端末１も、会議アプリケーションソフトウェア（例えば、会議サーバ３に対するクライアントとして機能するソフトウェア）をインストールすることで機能する。また、通信端末１は、ブラウザ機能を用いて、会議サーバ３に対するクライアント（会議端末）として機能するようにしてもよい。さらに、通信端末１はテレビ会議用の専用デバイスであってもよい。通信端末１は、ゲスト（参加者）として機能し、設定された会議室への参加が可能となる。

（Ａ－１－２）通信端末１の内部構成
図３は、第１の実施形態に係る通信端末１の内部構成を示す内部構成図である。

図３において、通信端末１は、制御部１０、記憶部１１、入力部１２、表示部１３、通信部１４、スピーカー１５、マイクロフォン（以下、「マイク」と呼ぶ。）１６を備える。

制御部１０は、通信端末１の各種機能を司る処理部又は装置である。制御部１０は、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＥＥＰＲＯＭ、入出力インタフェース等を有する。ＣＰＵがＲＯＭに格納される処理プログラム（例えば、音声通信処理プログラム等）を実行することにより、各種処理が実現される。

制御部１０は、会議を行なう処理のうち、音声処理を行なう音声処理部１００を有する。

記憶部１１は、処理に必要なデータを記憶する処理部又は装置である。

通信部１４は、ネットワークＮＴと接続しており、通信プロトコルに従って、パケットをネットワークＮＴに送信したり、ネットワークＮＴからパケットを受信したりする。

入力部１２は、キーボード、マウス等の入力装置である。表示部１３は、液晶ディスプレイ等の表示装置である。入力部１２と表示部１３は、タッチパネルのように入力装置と表示装置とが一体型となったものでもよい。

スピーカー１５とマイク１６は通信端末１に搭載されるものを適用することができる。また、スピーカー１５及びマイク１６は外付けものでもよい。受講者は、通信端末１に具備されているマイク１６とスピーカー１５と会議アプリケーションソフトウェアとにより、音声、映像を授受して会話を行なう。

図４は、第１の実施形態に係る通信端末１における音声処理部１００の構成を示す構成図である。

図４において、第１の実施形態の音声処理部１００は、大別して、符号化部１１０、復号部１２０、音声変換部５を有する。

符号化部１１０は、マイク１６により捕捉された音声信号（アナログ信号）を、所定の音声符号化方式で音声符号化し、当該音声符号化で得た音声データ（デジタル信号）を通信部１４に与える。ここで、音声符号化方式は、特に限定されず、例えば、ＡＤＰＣＭ（適応差分パルス符号変調）、ＰＣＭ（パルス符号変調）などの符号化方式を広く適用できる。

なお、通信部１４は、ネットワークＮＴを介して、音声データを含むパケットを会議サーバ３に送信する。さらに、会議サーバ３が、講師Ｔの通信端末２及び他の受講者の通信端末１に、音声データを含むパケットを送信し、通信端末２及び他の通信端末１が、受信した音声データに基づいて音声を再生して出力する。これにより、当該受講者が発した音声は、講師Ｔ、他の受講者に聞こえるようになる。

なお、講義等では、受講者が発した音声が、送信されないように規制をかけてもよいが、規制をかけていない場合には、上述したような処理がなされる。

復号部１２０は、ネットワークＮＴを介して、通信部１４が受信した音声データを取得し、符号化部１１０の音声符号化方式と同じ音声符号化方式で復号し、復号で得た音声信号を音声変換部５に出力する。

音声変換部５は、復号部１２０により復号された音声信号の中から、事前に設定された変換対象とする抽出語（以下、「第１の語」とも呼ぶ。）の音声波形が含まれているとき、その抽出語の音声波形を抽出し、抽出した音声波形を、事前に設定された変換語（以下、「第２の語」とも呼ぶ。）の音声波形に置き換える。そして、変換語の音声波形に置き換えて得た合成音声を、音声変換部５はスピーカー１５に出力する。これにより、抽出語を変換語に変換した音声がスピーカー１５から出力される。

なお、抽出語の音声波形を検出していない時間区間の音声については、音声変換部５は、音声波形の変換をせずに、復号部１２０からの音声信号をそのままスピーカー１５に出力する。

図１は、第１の実施形態に係る音声変換部５の内部構成を示す内部構成図である。

図１において、第１の実施形態の音声変換部５は、音響分析部５１、抽出語音声変換部５２、登録部５３、変換部５４、音声ファイル保存部５５、音声化部５６を有する。

なお、登録部５３及び変換部５４を含むものを音声ファイル登録部７と呼ぶ。音声ファイル登録部７は、音声信号の受信側で、抽出語の音声波形を含む音声ファイルと、変換語の音声波形を含む音声ファイルを作成して、音声ファイル保存部５５に保存する。

登録部５３は、キーボード等の入力部１２から、抽出語５３１と変換語５３２とをテキストデータで取得して、抽出語５３１と変換語５３２とを関連付けた変換情報を登録する。登録部５３には、複数の変換情報が登録できるようにしてもよい。

変換部５４は、事前に設定されている音響モデルを用いて、登録されている変換情報の抽出語５３１及び変換語５３２のそれぞれのテキストデータを音声に変換する。また、変換部５４は、抽出語５３１の音声波形を含む抽出語音声ファイル（以下、「第１の音声ファイル」とも呼ぶ。）５５１と、変換語５３２の音声波形を含む変換語音声ファイル（以下、「第２の音声ファイル」とも呼ぶ。）５５２とを生成する。さらに、変換部５４は、抽出語音声ファイル５５１と変換語音声ファイル５５２とを関連付けて音声ファイル保存部５５に保存する。

音声ファイル保存部５５は、登録された変換情報に係る抽出語音声ファイル５５１と変換語音声ファイル５５２とを、変換情報毎に、保存する。

音響分析部５１は、復号部１２０により復号された音声信号を分析する。例えば、音響分析部５１は、アナログデジタル変換後、高速フーリエ変換（ＦＦＴ）などを用いて、復号部１２０からの音声信号を周波数成分に変換して周波数解析（スペクトル解析）を行なう。音響分析部５１は、受信した音声信号から、音の周波数成分や強弱、音と音の間隔、時系列の音の特徴などを数値化した値（音響特徴量）を求める。

ここで、音響分析部５１は、音素と音響特徴量との関係を統計的なモデルである音響モデルを参照して、受信した音声信号の音響特徴量に基づいて、受信した音声信号の音素を解析して、音声波形を含む解析結果を抽出語音声変換部５２に与える。

抽出語音声変換部５２は、音響分析部５１からの解析結果と、音声ファイル保存部５５に保存されている抽出語音声ファイル５５１とを比較して、抽出語５３１の音声波形を検出する。抽出語５３１の音声波形が検出されたとき、抽出語音声変換部５２は、抽出語５３１の音声波形を、対応する変換語５３２の音声波形に変換して音声化部５６に出力する。

抽出語音声変換部５２は、抽出語検出部５２１、特定部５２２、置換部５２３を有する。

抽出語検出部５２１は、音声ファイル保存部５５を参照して、受信した音声信号の音声認識結果に、抽出語５３１の音声波形が含まれているか否かを検出する。

特定部５２２は、抽出語検出部５２１によって、抽出語５３１の音声波形が検出されると、検出された抽出語５３１の音声波形の時間区間を特定する。

置換部５２３は、特定部５２２により特定された、抽出語５３１の音声波形の時間区間に、変換語５３２の音声波形を置換する。つまり、置換部５２３は、抽出語５３１の音声波形を、変換語５３２の音声波形に変換する。

音声化部５６は、抽出語音声変換部５２から出力された音声データを音声信号に変換してスピーカー１５に出力する。

（Ａ－２）第１の実施形態の動作
次に、第１の実施形態の通信端末１において、抽出語の音声を変換語の音声に変換する音声処理方法を、図面を参照しながら説明する。

図５は、第１の実施形態において、登録された変換情報に基づいて、音声ファイルを生成する処理を説明するフローチャートである。

［ステップＳ１０１］
まず、ユーザが、キーボード等の入力部１２を操作して、抽出語５３１と、抽出語５３１に代えて音声出力させる変換語５３２を入力する。登録部５３は、入力部１２からテキスト入力された抽出語５３１と変換語５３２とを関連づけて記憶する（ステップＳ１０１）。

例えば、オンライン会議で、講師Ｔが受講者ＳＡ～ＳＮに呼び掛ける「皆さん」という言葉を発し、「鈴木さん」という受講者ＳＡの名前に変換しようとする。その場合、ユーザは、抽出語５３１として「皆さん」、変換語５３２として「鈴木さん」をテキスト入力して、登録部５３に登録する。

ここで、抽出語５３１及び変換語５３２は、受講者Ｓｎ（Ａ≦ｎ≦Ｎ）が任意に個別設定できる。これにより、講師Ｔの講義を聴く受講者Ｓｎの好みにより、抽出語５３１と変換語５３２を決めることができるので、受講者Ｓｎが関心をもって受講できる。

ここで変形例を示す。例えば、講師Ｔ側（又は会議システムのホスト側）が、変換対象とする抽出語５３１を事前に用意しておく。会議開始前に、抽出語５３１のリストを受講者Ｓｎに知らせ、その抽出語５３１に対する変換語５３２については各受講者Ｓｎが任意に設定できるようにしてもよい。このように、変換対象とする抽出語５３１を事前に用意しておくことで、受講者Ｓｎによる自由な設定を制限することができる。講師Ｔ側が用意する抽出語５３１のリストは、各受講者が閲覧可能な状態であれば、様々な方法を適用できる。また、通信端末１と通信端末２とを介して、講師Ｔと各受講者Ｓｎとの間でコミュニケーションを図り、ある受講者Ｓｎが、ある抽出語５３１を希望し講師Ｔが受け入れ可能であれば、新たに抽出語５３１を追加登録できるようにしてもよい。

別の変形例を示す。登録部５３は、受講者Ｓｎにより設定された抽出語５３１及び変換語５３２に関する情報（すなわち、受講者設定のリスト）を、講師Ｔ側（ホスト側）の通信端末２に送信するようにしてもよい。これにより、講師Ｔ側が、どの受講者Ｓｎが、どのように抽出語５３１及び変換語５３２を設定したかを知ることができる。

さらに、別の変形例を示す。抽出語５３１及び変換語５３２は、任意のタイミングで設定可能であり、例えば、受講者Ｓｎが会議システムへのログイン後に設定できる。また、受講者Ｓｎは講義中に設定することも可能であり、受講者Ｓｎは、抽出語５３１、変換語５３２の変更もすることができる。

［ステップＳ１０２］
次に、変換部５４は、音響モデル（コーパス）を用いて、登録部５３に登録されている抽出語５３１のテキストデータに基づいて、抽出語５３１の音声を生成する。同様に、変換語５３２についても、変換部５４は、変換語５３２のテキストデータに基づいて、変換語５３２の音声を生成する（ステップＳ１０２）。

［ステップＳ１０３］
変換部５４は、所定の音声ファイルフォーマットに従って生成した、抽出語音声ファイル５５１と変換語音声ファイル５５２を関連付けて、音声ファイル保存部５５に保存する（ステップＳ１０３）。

なお、変換部５４によるテキストデータを音声に変換する方法は、既存技術を広く適用することができる。

また、音声変換の際、例えば、女性の声、男性の声などのように、複数種類の音響モデル（コーパス）を用意しておき、受講者Ｓｎが任意に選択できるようにしてもよい。

図６は、第１の実施形態に係る通信端末１における音声処理方法の動作を示すフローチャートである。

以下の説明では、オンライン会議が開始しているものとする。各受講者Ｓｎの通信端末１－ｎは、通信端末２が送信した講師Ｔの音声を含むパケットを受信している。通信端末１－ｎでは、復号部１２０が、受信した音声データを復号して、音声変換部５に出力する。

［ステップＳ２０１、Ｓ２０２］
音響分析部５１は、復号部１２０により復号された音声信号を取得し（ステップＳ２０１）、音声信号の周波数解析を行ない、音響特徴量を分析する。そして、音響分析部５１は、事前設定された音響モデル等を参照して、音響特徴量に基づく音声波長を求めて、その音声波長含む解析結果を、抽出語音声変換部５２に与える（ステップＳ２０２）。

［ステップＳ２０３，Ｓ２０４，Ｓ２０５］
抽出語音声変換部５２では、抽出語検出部５２１が、音声ファイル保存部５５に保存されている抽出語音声ファイル５５１を参照して、抽出語５３１の音声波形と、音響分析部５１からの音声波形とを比較する（ステップＳ２０３）。そして、パターンマッチングにより抽出語５３１の音声波形と一致する部分があるか否かを、抽出語検出部５２１が判断する。

音響分析部５１からの音声波形に、抽出語５３１の音声波形（パターン）が含まれている場合（ステップＳ２０４／ＹＥＳ）、抽出語５３１の音声波形が含まれている時間区間を特定部５２２が特定して抽出する。その時間区間に、抽出語５３１に対応する変換語５３２の音声波形を、置換部５２３が置換する（ステップＳ２０５）。

他方、音響分析部５１からの音声波長に抽出語５３１の音声波形（パターン）が含まれていない場合（ステップＳ２０４／ＮＯ）、ステップＳ２０４の処理を繰り返し行なう。音響分析部５１から連続的に与えられる音声波形に抽出語５３１の音声波形が含まれているか否かを、抽出語検出部５２１が判断する。

なお、抽出語５３１の音声波形が検出されなかった音声波形は、音声変換せず、受講者に届ける音声であるため、音声化部５６にそのまま与えられる。

［ステップＳ２０６］
音声化部５６は、抽出語音声変換部５２からの音声データを音声信号に変換してスピーカー１５に出力する（ステップＳ２０６）。

なお、抽出語５３１を変換語５３２に変換する場合、抽出語５３１の音声パターンの時間長と、変換語５３２の音声パターンの時間長とが一致しない場合も考えられる。

その場合、上述した実施形態のように、置換部５２３が、単純に変換語５３２の音声パターンをそのまま置換することができる。また、その変形例として、変換語が再生される速度が登録時とことなるが、変換語５３２の音声パターンの時間長を伸縮させて置換するようにしてもよい。

（Ａ－３）第１の実施形態の効果
以上のように、第１の実施形態によれば、受講者側の通信端末１において、変換したい言葉を事前に登録しておけば、講師は話す言葉の中で、該当する言葉が含まれているときに、事前登録した言葉に変換して出力することができる。

例えば、図２に示すように、講師Ｔの「皆さん」という言葉が、それぞれ受講者の自分の名前に変換されて出力できるため、１対１で講義を受けているように、受講者は親近感を持って臨場感ある講義などを聞くことができる。

（Ｂ）第２の実施形態
次に、本開示に係る音声処理装置、音声処理方法、音声処理プログラム及び通信システムの第２の実施形態を、図面を参照して説明する。

第１の実施形態では、抽出語の音声、変換語の音声については、キーボード等の入力部１２から入力したテキストデータを、事前設定した音響モデルを用いて音声を生成する場合を例示した。

そうすると、抽出語及び変換語の音声特徴量が、話者（例えば、講師Ｔ）の音声特徴量とは異なるため、音声特徴量が一致せず、抽出語の音声の抽出精度が低くなることが生じ得る。また変換語の音声を置換した部分だけ特徴の異なる音声が出力されるので、違和感が生じ得る。

そこで、第２の実施形態は、例えば講師などの話者の音声、受講者などのユーザの音声を録音した録音音声を用いて、抽出語の音声、変換語の音声を生成して抽出、変換をできるようにする。

（Ｂ－１）第２の実施形態の構成
第２の実施形態は、受講者Ｓｎの通信端末１における音声変換部５の機能をさらに拡張させたものである。

したがって、第２の実施形態の音声変換部を「音声変換部５Ａ」と表記して、第２の実施形態の音声変換部５Ａの特徴的な構成及び処理動作を中心に詳細に説明する。

他方、音声変換部５Ａ以外の構成要素については、基本的には、第１の実施形態で説明したものと同じであるため、第２の実施形態でも、第１の実施形態の図２～図４を用いる。

図７は、第２の実施形態に係る音声変換部５Ａの内部構成を示す内部構成図である。

図７において、第２の実施形態の音声変換部５Ａは、音響分析部５１、抽出語音声変換部５２、登録部５３、変換部５４、音声ファイル保存部５５、音声化部５６に加えて、録音部５７、録音音声記憶部５８、再生抽出部５９を有する。

なお、登録部５３、変換部５４、録音部５７、録音音声記憶部５８、再生抽出部５９を含むものを音声ファイル登録部７Ａと呼ぶ。

音声変換部５Ａは、基本的には、第１の実施形態で説明した音声変換部５と同じ構成を備える。

加えて、音声変換部５Ａは、受信した音声を録音したり、及び又は、マイク１６を使って音声を録音したりして、録音した音声をファイル化して保存する機能を備える。

録音部５７は、音声化部５６から出力される音声、又はスピーカー１５で再生された音声を録音して録音音声記憶部５８に記憶する。また、録音部５７は、マイク１６を通じて、ユーザ（例えば、受講者など）が発した音声を録音して録音音声記憶部５８に記憶する。すなわち、録音部５７は、受信した音声を録音したり、マイク１６からの音声を録音したりする。例えば、入力部１２を通じてユーザ（例えば、受講者等）により、録音する音声がいずれの音声を録音するかについては、ユーザ（例えば、受講者など）による入力部１２で選択することができる。録音部５７は、オンライン会議の音声符号化方式に対応のファイル形式で録音する。

録音音声記憶部５８は、録音部５７により録音された音声を記憶する部分である。録音音声記憶部５８は、例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、フラッシュメモリ―などの記憶装置とすることができる。

再生抽出部５９は、入力部１２からの再生開始信号を取得すると、録音音声記憶部５８の指定した録音音声を再生する。そして、入力部１２からの抽出開始信号と抽出終了信号とにより、再生している録音音声の中から、抽出語又は変換語とする音声区間が指定され、その音声区間の音声を再生抽出部５９が抽出する。これにより、録音音声から、抽出語の音声、又は変換語の音声を抽出することができる。なお、再生抽出部５９は、入力部１２からの再生終了信号を取得すると、録音音声の再生を終了する。

入力部１２は、ユーザ（例えば、受講者Ｓｎ）の操作により、受信した音声を録音するのか又はマイク１６から入力した音声を録音するのかのいずれかの方法を指定し、録音の開始又は終了を示す録音開始信号又は録音終了信号を録音部５７に出力する。

なお、事前に設定した時間を録音時間とする場合、入力部１２は録音終了信号を録音部５７に出力しなくてもよい。つまり、入力部１２が録音開始信号を録音部５７に出力すると、録音部５７は録音を開始し、所定時間後経過後、自動的に録音を終了するようにしてもよい。

また、入力部１２は、録音音声記憶部５８に記憶されている録音音声の中から、指定した録音音声を再生又は終了させる、再生開始信号又は再生終了信号を、再生抽出部５９に指示する。

さらに、入力部１２は、再生している録音音声について、抽出語の音声、又は変換語の音声が存在している音声区間を特定するため、抽出開始信号及び抽出終了信号を、再生抽出部５９に出力する。

また、入力部１２は、抽出語の音声ファイルを作成するのか、又は変換語の音声ファイルを作成するのかを再生抽出部５９に指示し、抽出語の音声ファイルと変換語の音声ファイルとを関連付けて保存することを指示する。

（Ｂ－２）第２の実施形態の動作
次に、第２の実施形態の通信端末１における音声処理方法を、図面を参照しながら説明する。

第２の実施形態の音声処理方法は、基本的には、第１の実施形態の図５及び図６に示す音声処理方法を適用することができる。

以下では、録音音声から、抽出語の音声、又は変換語の音声を抽出して音声ファイルを生成する処理の動作を説明する。

（Ｂ－２－１）受信音声から抽出語（又は変換語）の音声ファイルを生成する処理
図８は、第２の実施形態において、受信した音声を録音した録音音声から、抽出語の音声ファイルを生成する処理を示すフローチャートである。

ここでは、説明を簡単にするため、抽出語の音声ファイルを生成する場合を例示するが、変換語の音声ファイルを生成する場合にも同様に適用できる。

また、講義中に講師Ｔが発した音声を全て録音するものとする。例えば、連続的に行なわれる講義であれば、今回の講義で講師Ｔが発した音声を全て録音しておき、録音音声を再生して、その中からユーザが希望する抽出語の音声を抽出して抽出語の音声ファイルを作成することができる。こうすることで、次回の講義で、講師Ｔの音声特徴の抽出語の音声ファイルを用いて音声変換処理が可能となる。このようなケースを例示するが、勿論、これに限定されない。

［ステップＳ３０１、Ｓ３０２］
録音音声記憶部５８に記憶されている録音音声を再生するため、ユーザによる操作を受けて、入力部１２は再生抽出部５９に再生開始信号を出力する。

再生抽出部５９は、入力部１２から再生開始信号を取得すると（ステップＳ３０１）、録音音声記憶部５８に記憶されている録音音声を再生する（ステップＳ３０２）。

例えば、再生される録音音声は、スピーカー１５から出力される。ユーザは、スピーカー１５から出力される録音音声を聞きながら、ユーザ希望の抽出語の音声を特定する。

［ステップＳ３０３、Ｓ３０４］
再生される録音音声の中で、ユーザが希望する、変換対象とする抽出語の音声を抽出するため、ユーザによる操作を受けて、当該抽出語の音声の開始位置を特定する抽出開始信号を、入力部１２が再生抽出部５９に出力する。また、当該抽出語の音声の終了位置を特定する抽出終了信号を、入力部１２が再生抽出部５９に出力する。

つまり、再生抽出部５９は、入力部１２から抽出開始信号を取得し（ステップＳ３０３）、その後、入力部１２から抽出終了信号を取得する（ステップＳ３０４）。

例えば、ユーザがキーボードの特定キーを１回押下すると抽出開始信号が出力され、２回押下すると抽出終了信号が出力される、などのように、ユーザによる操作を簡単にする方法を適用できる。

［ステップＳ３０５］
その後、再生抽出部５９は、入力部１２から再生終了信号を取得すると（ステップＳ３０５）、録音音声の再生を終了する。

［ステップＳ３０６、Ｓ３０７］
再生抽出部５９は、抽出開始信号と抽出終了信号で特定された音声区間の音声を、抽出語の音声として抽出する（ステップＳ３０６）。そして、再生抽出部５９は、所定の音声ファイルフォーマットに従って、抽出語音声ファイル５５１を生成して、音声ファイル保存部５５に保存する（ステップＳ３０７）。

なお、このとき、抽出語音声ファイル５５１と、変換語音声ファイル５５２を関連付けて、音声ファイル保存部５５に保存する。

［変形例］
上述した（Ｂ－２－１）の動作説明では、講師Ｔの音声を一度全て録音した後に、抽出語とする音声を抽出する場合を例示した。しかし、録音せず、講義中に講師Ｔが話している音声から、抽出語の音声を抽出するようにしてもよい。

例えば、キーボードで特定キーの押下（例えば、１回押下が抽出開始、２回押下が抽出終了など）するという簡単な操作で抽出語の音声を抽出できるので、オンライン講義中の講師Ｔの音声から抽出語の音声（又は、変換語の音声）を抽出することができる。

（Ｂ－２－２）マイク音声から抽出語（又は変換語）の音声ファイルを生成する処理
図９は、第２の実施形態において、マイク音声を録音した録音音声から、変換語の音声ファイルを生成する処理を示すフローチャートである。

つまり、マイク１６を使って、ユーザが発した音声を録音して、その録音音声から、変換語の音声ファイルを抽出する場合を例示する。なお、抽出語の音声ファイルを生成する場合にも同様に適用できる。

また、図９の処理の中で、図８の処理と同様の処理を適用できるものについては、図８の処理番号を付している。

［ステップＳ４０１、Ｓ４０２］
まず、ユーザが希望する変換語の音声ファイルを生成するため、ユーザは、キーボードなどの入力部１２を用いて録音操作を行なう。そして、録音部５７が、入力部１２から録音開始信号を取得すると（ステップＳ４０１）、マイク音声の録音を開始する（ステップＳ４０２）。

［ステップＳ４０３、Ｓ４０４、Ｓ４０５］
ユーザが変換語の音声を発し終えると、ユーザは、入力部１２を用いて録音終了操作を行なう。そして、録音部５７が、入力部１２から録音終了信号を取得すると（ステップＳ４０３）、マイク音声の録音を終了して（ステップＳ４０４）、録音したマイク音声を録音音声記憶部５８に記憶する（ステップＳ４０５）。

［ステップＳ３０１～Ｓ３０７］
録音音声記憶部５８に記憶されているマイク音声を再生するため、ユーザは、キーボード等の入力部１２を用いて、マイク音声を指定して、そのマイク音声の再生開始の操作を行なう。

再生抽出部５９は、入力部１２から再生開始信号を取得すると（ステップＳ３０１）、録音音声記憶部５８に記憶されているマイク音声を再生する（ステップＳ３０２）。

再生されているマイク音声のうち、変換語の音声として抽出する区間を特定するため、ユーザは、入力部１２を用いて抽出操作を行なう。再生抽出部５９は、入力部１２から抽出開始信号を取得し（ステップＳ３０３）、その後、入力部１２から抽出終了信号を取得する（ステップＳ３０４）。

その後、再生抽出部５９は、入力部１２から再生終了信号を取得すると（ステップＳ３０５）、マイク音声の再生を終了する。

そして、再生抽出部５９は、抽出開始信号と抽出終了信号で特定された音声区間の音声を、変換語の音声として抽出する（ステップＳ３０６）。そして、再生抽出部５９は、変換語音声ファイル５５２を生成して、抽出語音声ファイル５５１と関連付けて、音声ファイル保存部５５に保存する（ステップＳ３０７）。

［変形例］
上述した（Ｂ－２－２）の動作説明では、ユーザの声を一度録音した後に、変換語とする音声を抽出する場合を例示した。しかし、録音せず、入力されたマイク音声をそのまま変換語の音声としてもよい。

（Ｂ－３）第２の実施形態の効果
以上のように、第２の実施形態によれば、第１の実施形態の効果に加えて、以下の効果を得ることができる。

オンライン会議で話者が発話した音声から、抽出語の音声、又は変換語の音声を切り出して、音声ファイルを生成することができる。その結果、抽出語の抽出精度を向上させることができる。また、音声特徴が近い変換語の音声を置換できるので、違和感を抑えることができる。

（Ｃ）他の実施形態
上述した第１及び第２の実施形態においても種々の変形実施形態を言及したが、本開示は、以下の変形実施形態にも適用できる。

（Ｃ－１）上述した第１及び第２の実施形態では、会議システム９を利用した講義で、「皆さん」など多数の受講者に呼びかける言葉を抽出語とする場合を例示した。しかし、変換対象とする抽出語は、呼びかける言葉に限られない。

抽出語の音声と変換語の音声との変換情報の登録を変えることにより、例えば、会話内容を変えることや、好ましくない言葉を別の言葉に代えることができる。例えば、変換語の音声ファイルを加工して、変換語の音声の抑揚に強弱をつけたり、音程などを変えることにより、淡々と説明する会議内容にしたり、逆に抑揚のある会議内容にしたりすることができる。

（Ｃ－２）音響分析部５１及び抽出語音声変換部５２は、一般的な音声パターン一致でも良いし、ＡＩ機能を持たせた音声認識であれば、より抽出精度が向上する。例えば録音ファイルから変換ミス、例えば『皆さん』を抽出できなかった場合、再度抽出ファイルとして登録することによりＡＩ機能で学習させることも可能である。

（Ｃ－３）抽出語の音声ファイルと、これに対応する変換語の音声ファイルとを応用して、例えば、ある地域の方言の言葉を標準語に変換したり、逆に標準語を方言の言葉に変換したりしてもよい。

例えば、ある地方の方言の言葉の音声ファイルと、標準語の音声ファイルとを関連付けた音声ファイル辞書（音声ファイルを収録したもの）を事前に用意しておく。そして、会議開催前に、その辞書をダウンロードして通信端末内にインストールしておくことで実現できる。

より具体的に、図１０のように、北海道弁用音声ファイル辞書６Ａ、…、沖縄弁用音声ファイル辞書６Ｚなどのように、地方別の音声ファイル辞書を、通信端末に記憶できるように用意しておく。通信端末に記憶できるのであれば、会議の主催者側が各受講者に配布してもよいし、クラウドサーバに記憶してダウンロード可能な状態にしておいてもよい。

このように、方言の言葉と、標準語との間で変換できるようにすることで、ある地方出身の講師が話す言葉を標準語に変換できるので、受講者にとって聞きやすくすることができる。逆に、標準語を話す講師の言葉を、ある地方の方言に変換できるので、その地方出身の受講者にとっては、親しみのある会議をうけることができる。

（Ｃ－４）第２の実施形態は、第１の実施形態の機能に対して追加的な構機能として適用できる。その場合、抽出語及び変換語の音声ファイルを、テキストデータで生成するか、又は録音音声から抽出して生成するかの動作モードをユーザによって選択できる。

また、第２の実施形態で説明した機能は、第１の実施形態の構成を前提とせず、独立した機能として用いることができる。

９…オンライン会議システム、１（１－１～１－Ｎ）…通信端末、２…通信端末、３…会議サーバ、
１０…制御部、１１…記憶部、１２…入力部、１３…表示部、１４…通信部、１５…スピーカー、１６…マイク、１００…音声処理部、１１０…符号化部、１２０…復号部、
５及び５Ａ…音声変換部、７及び７Ａ…音声ファイル登録部、５１…音響分析部、５２…抽出語音声変換部、５２１…抽出語検出部、５２２…特定部、５２３…置換部、５３…登録部、５４…変換部、５５…音声ファイル保存部、５５１…抽出語音声ファイル、５５２…変換語音声ファイル、５６…音声化部、５７…録音部、５８…録音音声記憶部、５９…再生抽出部。

Claims

第１の語の音声波形を含む第１の音声ファイルと、前記第１の語に代えて置き換える第２の語の音声波形を含む第２の音声ファイルとを関連付けて保存する音声ファイル保存手段と、
音声信号の受信側で、前記第１の音声ファイル及び前記第２の音声ファイルを作成して、前記音声ファイル保存手段に保存する音声ファイル登録手段と、
前記音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に前記第１の語の音声波形が含まれているときに、前記第１の語の音声波形を、当該第１の語に関連付けられた前記第２の語の音声波形に変換する音声変換手段と、
を備えることを特徴とする音声処理装置。
前記音声ファイル登録手段が、
入力部から入力された前記第１の語のテキストデータ及び前記第２の語のテキストデータのそれぞれを取得し、予め設定された音響モデルを用いて、前記第１の語の音声波形及び前記第２の語の音声波形を生成して、前記第１の音声ファイル及び前記第２の音声ファイルを作成する
ことを特徴とする請求項１に記載の音声処理装置。
前記音声ファイル登録手段が、
受信した音声信号に基づいて再生した音声に含まれている特定語を、前記第１の語及び又は前記第２の語とするとき、入力部からの抽出指示により抽出した前記特定語の音声波形を、前記第１の語の音声波形及び又は前記第２の語の音声波形として、前記第１の音声ファイル及び又は前記第２の音声ファイルを作成する
ことを特徴とする請求項１に記載の音声処理装置。
前記音声ファイル登録手段が、
マイクロフォンを通じてユーザが発した語を、前記第１の語及び又は前記第２の語とするとき、前記ユーザが発した語の音声波形を、前記第１の語の音声波形及び又は前記第２の語の音声波形として、前記第１の音声ファイル及び又は前記第２の音声ファイルを作成する
ことを特徴とする請求項１又は３に記載の音声処理装置。
第１の語の音声波形を含む第１の音声ファイルと、前記第１の語に代えて置き換える第２の語の音声波形を含む第２の音声ファイルとを関連付けて保存する音声ファイル保存手段を備え、
音声ファイル登録手段が、音声信号の受信側で、前記第１の音声ファイル及び前記第２の音声ファイルを作成して、前記音声ファイル保存手段に保存し、
音声変換手段が、前記音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に前記第１の語の音声波形が含まれているときに、前記第１の語の音声波形を、当該第１の語に関連付けられた前記第２の語の音声波形に変換する
ことを特徴とする音声処理方法。
コンピュータを、
第１の語の音声波形を含む第１の音声ファイルと、前記第１の語に代えて置き換える第２の語の音声波形を含む第２の音声ファイルとを関連付けて保存する音声ファイル保存手段と、
音声信号の受信側で、前記第１の音声ファイル及び前記第２の音声ファイルを作成して、前記音声ファイル保存手段に保存する音声ファイル登録手段と、
前記音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に前記第１の語の音声波形が含まれているときに、前記第１の語の音声波形を、当該第１の語に関連付けられた前記第２の語の音声波形に変換する抽出語音声変換手段と、
して機能させることを特徴とする音声処理プログラム。
ネットワークを介して、１対Ｎ又はＮ対Ｍにて音声通信を行なう通信システムにおいて、
複数の通信端末のそれぞれは、音声信号を受信する受信側として、
第１の語の音声波形を含む第１の音声ファイルと、前記第１の語に代えて置き換える第２の語の音声波形を含む第２の音声ファイルとを関連付けて保存する音声ファイル保存手段と、
音声信号の受信側で、前記第１の音声ファイル及び前記第２の音声ファイルを作成して、前記音声ファイル保存手段に保存する音声ファイル登録手段と、
前記音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に前記第１の語の音声波形が含まれているときに、前記第１の語の音声波形を、当該第１の語に関連付けられた前記第２の語の音声波形に変換する抽出語音声変換手段と、
を備えることを特徴とする通信システム。