JP2024031442A - 音声処理装置、音声処理方法、音声処理プログラム及び通信システム - Google Patents

音声処理装置、音声処理方法、音声処理プログラム及び通信システム Download PDF

Info

Publication number
JP2024031442A
JP2024031442A JP2022134991A JP2022134991A JP2024031442A JP 2024031442 A JP2024031442 A JP 2024031442A JP 2022134991 A JP2022134991 A JP 2022134991A JP 2022134991 A JP2022134991 A JP 2022134991A JP 2024031442 A JP2024031442 A JP 2024031442A
Authority
JP
Japan
Prior art keywords
audio
word
waveform
audio file
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022134991A
Other languages
English (en)
Inventor
一義 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2022134991A priority Critical patent/JP2024031442A/ja
Publication of JP2024031442A publication Critical patent/JP2024031442A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】話者が発した特定の音声を、受信側で個別に設定登録した音声に、変換することができるようにする。【解決手段】本開示の音声処理装置は、第1の語の音声波形を含む第1の音声ファイルと、第1の語に代えて置き換える第2の語の音声波形を含む第2の音声ファイルとを関連付けて保存する音声ファイル保存手段と、音声信号の受信側で、第1の音声ファイル及び第2の音声ファイルを作成して、音声ファイル保存手段に保存する音声ファイル登録手段と、音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第1の語の音声波形が含まれているときに、第1の語の音声波形を、当該第1の語に関連付けられた第2の語の音声波形に変換する音声変換手段と、を備える。【選択図】 図1

Description

この開示は、音声処理装置、音声処理方法、音声処理プログラム及び通信システムに関し、例えば、ネットワークを介した会議システムに適用し得るものである。
オンライン会議システムが急速に普及している。例えば、講演会、講習会、授業等にもオンライン会議システムが用いられている。その場合、1人の講師が発した音声を、複数の受講者の通信端末に向けてそのまま送信するのが一般的である。
従来、ネットワークを介した音声通信システムにおいて、ある話者の音声を変換する技術として、例えば、特許文献1、2に記載されているものがある。
特許文献1の記載技術は、コールセンターなどで使用されるシステムである。例えば、オペレータがお客様と話しているとき、特定の言葉(例えば、クレームとなる禁止語等)をお客様に聞こえないようにするため、電話での会話内容から特定の言葉を検出すると、ダミー音を入れるというものである。
また、特許文献2には、方言を含む会話音声から、音声認識により方言を特定し、事前に登録してある標準語に変換して合成することが開示されている。
特開2010-103751号公報 特開平9-244682号公報
上述した従来技術は1対1の通信であるため、話者が発した特定の音声を、別の音声又はダミー音に変換することができるが、会議システム等のように1対Nの通信、又はN×Mの通信では、話者の特定の音声を変換することは難しい。
例えば、会議システムを利用した講義で、講師が「皆さん」と多数に向けた呼びかけた言葉を、それぞれの受講者の名前に個別に変換することは難しい。会議システムを利用した講義は、対面講義と異なり臨場感がなく、味気なく感じられることが多い。したがって、受講者が、より親近感や関心をもって講義を受けてもらうためにも、特定の音声を受信側で変換できるようにすることが求められている。
そこで、本開示は、上述した課題に鑑み、話者が発した特定の音声を、受信側で個別に設定登録した音声に、変換することができる音声処理装置、通信システム、音声処理方法、及び音声処理プログラムを提供しようとするものである。
かかる課題を解決するため、第1の本開示の音声処理装置は、(1)第1の語の音声波形を含む第1の音声ファイルと、第1の語に代えて置き換える第2の語の音声波形を含む第2の音声ファイルとを関連付けて保存する音声ファイル保存手段と、(2)音声信号の受信側で、第1の音声ファイル及び第2の音声ファイルを作成して、音声ファイル保存手段に保存する音声ファイル登録手段と、(3)音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第1の語の音声波形が含まれているときに、第1の語の音声波形を、当該第1の語に関連付けられた第2の語の音声波形に変換する音声変換手段と、を備える。
第2の本開示の音声処理方法は、(1)第1の語の音声波形を含む第1の音声ファイルと、第1の語に代えて置き換える第2の語の音声波形を含む第2の音声ファイルとを関連付けて保存する音声ファイル保存手段を備え、(2)音声ファイル登録手段が、音声信号の受信側で、第1の音声ファイル及び第2の音声ファイルを作成して、音声ファイル保存手段に保存し、(3)音声変換手段が、音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第1の語の音声波形が含まれているときに、第1の語の音声波形を、当該第1の語に関連付けられた第2の語の音声波形に変換する。
第3の本開示の音声処理プログラムは、コンピュータを、(1)第1の語の音声波形を含む第1の音声ファイルと、第1の語に代えて置き換える第2の語の音声波形を含む第2の音声ファイルとを関連付けて保存する音声ファイル保存手段と、(2)音声信号の受信側で、第1の音声ファイル及び第2の音声ファイルを作成して、音声ファイル保存手段に保存する音声ファイル登録手段と、(3)音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第1の語の音声波形が含まれているときに、第1の語の音声波形を、当該第1の語に関連付けられた第2の語の音声波形に変換する抽出語音声変換手段として機能させる。
第4の本開示の通信システムは、ネットワークを介して、1対N又はN対Mにて音声通信を行なう通信システムにおいて、複数の通信端末のそれぞれは、音声信号を受信する受信側として、第1の語の音声波形を含む第1の音声ファイルと、第1の語に代えて置き換える第2の語の音声波形を含む第2の音声ファイルとを関連付けて保存する音声ファイル保存手段と、音声信号の受信側で、第1の音声ファイル及び第2の音声ファイルを作成して、音声ファイル保存手段に保存する音声ファイル登録手段と、音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に第1の語の音声波形が含まれているときに、第1の語の音声波形を、当該第1の語に関連付けられた第2の語の音声波形に変換する抽出語音声変換手段と、を備える。
本開示によれば、話者が発した特定の音声を、受信側で個別に設定登録した音声に変換することができる。
第1の実施形態に係る音声変換部の内部構成を示す内部構成図である。 第1の実施形態のオンライン会議システムの全体構成を示す全体構成図である。 第1の実施形態に係る通信端末の内部構成を示す内部構成図である。 第1の実施形態に係る通信端末における音声処理部の構成を示す構成図である。 第1の実施形態において、登録された変換情報に基づいて、音声ファイルを生成する処理を説明するフローチャートである。 第1の実施形態に係る通信端末における音声処理方法の動作を示すフローチャートである。 第2の実施形態に係る音声変換部の内部構成を示す内部構成図である。 第2の実施形態において、受信した音声を録音した録音音声から、抽出語の音声ファイルを生成する処理を示すフローチャートである。 第2の実施形態において、マイク音声を録音した録音音声から、変換語の音声ファイルを生成する処理を示すフローチャートである。 変形実施形態において、ある地方の方言の言葉と標準語との間で変換できる辞書(音声ファイル)を選択可能とする処理を説明する説明図である。
(A)第1の実施形態
以下では、本開示に係る音声処理装置、音声処理方法、音声処理プログラム及び通信システムの第1の実施形態を、図面を参照して説明する。
第1の実施形態は、ネットワークを介して、多拠点で音声と映像を使用したオンライン会議システム及び受信側の通信端末に、本開示を適用する場合を例示する。
(A-1)第1の実施形態の構成
(A-1-1)全体構成
図2は、第1の実施形態のオンライン会議システム(通信システム)の全体構成を示す全体構成図である。
ここでは、オンライン会議システム(以下、「会議システム」とも呼ぶ。)9を利用して、1人の講師Tが複数の受講者SA~SN(Nは正の整数)に対して講義を行なう場合を例示する。なお、講義に限らず、1対N、又はN対M(Mは正の整数)通信の、会議、セミナー、講演会、講習等に会議システム9を広く適用できる。
図2に示すように、第1の実施形態の会議システム9は、ネットワークNTを介して、講師Tが用いる通信端末2と、各受講者SA~SNが用いる通信端末1-1~1-Nと、会議サーバ3とを備える。
通信端末1-1~1-Nについて、特定の通信端末を特定せず、共通する構成を説明するときには「通信端末1」と表記して説明する。
会議システム9は、ネットワークNTを介して、多拠点間で、音声、映像、テキストデータなどを送受信するものである。会議システム9は、インターネット等のネットワークNTを介してパーソナルコンピュータやスマートフォン等の端末で音声、映像等を通信するウェブ会議システム、専用回線や専用デバイスで通信するテレビ会議システムのいずれにも適用できる。
会議サーバ3は、ユーザのログイン情報の管理、会議室の設定、スケジュール等を行なうサーバである。会議サーバ3は、オンプレミス型のサーバであってもよいし、クラウド側のサーバであってもよい。
通信端末2は、講師Tが使用する通信端末であり、通信機能を有する情報処理端末である。例えば、パーソナルコンピュータ、スマートフォン、タブレット端末、携帯端末等を、通信端末2として適用できる。通信端末2は、例えば会議アプリケーションソフトウェア(例えば、会議サーバ3に対するクライアントとして機能するソフトウェア)をインストールすることで機能する。また通信端末2は、ブラウザ機能を用いて、会議サーバ3に対するクライアント(会議端末)として機能するようにしてもよい。さらに、通信端末2はテレビ会議用の専用デバイスであってもよい。通信端末2は、会議開催のホストとして機能し、例えば、会議室の予約、設定、参加者の管理などを行なう。
通信端末1は、各受講者が使用する通信端末であり、通信機能を有する情報処理端末である。例えば、パーソナルコンピュータ、スマートフォン、タブレット端末、携帯端末等を、通信端末1として適用できる。通信端末1も、会議アプリケーションソフトウェア(例えば、会議サーバ3に対するクライアントとして機能するソフトウェア)をインストールすることで機能する。また、通信端末1は、ブラウザ機能を用いて、会議サーバ3に対するクライアント(会議端末)として機能するようにしてもよい。さらに、通信端末1はテレビ会議用の専用デバイスであってもよい。通信端末1は、ゲスト(参加者)として機能し、設定された会議室への参加が可能となる。
(A-1-2)通信端末1の内部構成
図3は、第1の実施形態に係る通信端末1の内部構成を示す内部構成図である。
図3において、通信端末1は、制御部10、記憶部11、入力部12、表示部13、通信部14、スピーカー15、マイクロフォン(以下、「マイク」と呼ぶ。)16を備える。
制御部10は、通信端末1の各種機能を司る処理部又は装置である。制御部10は、例えば、CPU、ROM、RAM、EEPROM、入出力インタフェース等を有する。CPUがROMに格納される処理プログラム(例えば、音声通信処理プログラム等)を実行することにより、各種処理が実現される。
制御部10は、会議を行なう処理のうち、音声処理を行なう音声処理部100を有する。
記憶部11は、処理に必要なデータを記憶する処理部又は装置である。
通信部14は、ネットワークNTと接続しており、通信プロトコルに従って、パケットをネットワークNTに送信したり、ネットワークNTからパケットを受信したりする。
入力部12は、キーボード、マウス等の入力装置である。表示部13は、液晶ディスプレイ等の表示装置である。入力部12と表示部13は、タッチパネルのように入力装置と表示装置とが一体型となったものでもよい。
スピーカー15とマイク16は通信端末1に搭載されるものを適用することができる。また、スピーカー15及びマイク16は外付けものでもよい。受講者は、通信端末1に具備されているマイク16とスピーカー15と会議アプリケーションソフトウェアとにより、音声、映像を授受して会話を行なう。
図4は、第1の実施形態に係る通信端末1における音声処理部100の構成を示す構成図である。
図4において、第1の実施形態の音声処理部100は、大別して、符号化部110、復号部120、音声変換部5を有する。
符号化部110は、マイク16により捕捉された音声信号(アナログ信号)を、所定の音声符号化方式で音声符号化し、当該音声符号化で得た音声データ(デジタル信号)を通信部14に与える。ここで、音声符号化方式は、特に限定されず、例えば、ADPCM(適応差分パルス符号変調)、PCM(パルス符号変調)などの符号化方式を広く適用できる。
なお、通信部14は、ネットワークNTを介して、音声データを含むパケットを会議サーバ3に送信する。さらに、会議サーバ3が、講師Tの通信端末2及び他の受講者の通信端末1に、音声データを含むパケットを送信し、通信端末2及び他の通信端末1が、受信した音声データに基づいて音声を再生して出力する。これにより、当該受講者が発した音声は、講師T、他の受講者に聞こえるようになる。
なお、講義等では、受講者が発した音声が、送信されないように規制をかけてもよいが、規制をかけていない場合には、上述したような処理がなされる。
復号部120は、ネットワークNTを介して、通信部14が受信した音声データを取得し、符号化部110の音声符号化方式と同じ音声符号化方式で復号し、復号で得た音声信号を音声変換部5に出力する。
音声変換部5は、復号部120により復号された音声信号の中から、事前に設定された変換対象とする抽出語(以下、「第1の語」とも呼ぶ。)の音声波形が含まれているとき、その抽出語の音声波形を抽出し、抽出した音声波形を、事前に設定された変換語(以下、「第2の語」とも呼ぶ。)の音声波形に置き換える。そして、変換語の音声波形に置き換えて得た合成音声を、音声変換部5はスピーカー15に出力する。これにより、抽出語を変換語に変換した音声がスピーカー15から出力される。
なお、抽出語の音声波形を検出していない時間区間の音声については、音声変換部5は、音声波形の変換をせずに、復号部120からの音声信号をそのままスピーカー15に出力する。
図1は、第1の実施形態に係る音声変換部5の内部構成を示す内部構成図である。
図1において、第1の実施形態の音声変換部5は、音響分析部51、抽出語音声変換部52、登録部53、変換部54、音声ファイル保存部55、音声化部56を有する。
なお、登録部53及び変換部54を含むものを音声ファイル登録部7と呼ぶ。音声ファイル登録部7は、音声信号の受信側で、抽出語の音声波形を含む音声ファイルと、変換語の音声波形を含む音声ファイルを作成して、音声ファイル保存部55に保存する。
登録部53は、キーボード等の入力部12から、抽出語531と変換語532とをテキストデータで取得して、抽出語531と変換語532とを関連付けた変換情報を登録する。登録部53には、複数の変換情報が登録できるようにしてもよい。
変換部54は、事前に設定されている音響モデルを用いて、登録されている変換情報の抽出語531及び変換語532のそれぞれのテキストデータを音声に変換する。また、変換部54は、抽出語531の音声波形を含む抽出語音声ファイル(以下、「第1の音声ファイル」とも呼ぶ。)551と、変換語532の音声波形を含む変換語音声ファイル(以下、「第2の音声ファイル」とも呼ぶ。)552とを生成する。さらに、変換部54は、抽出語音声ファイル551と変換語音声ファイル552とを関連付けて音声ファイル保存部55に保存する。
音声ファイル保存部55は、登録された変換情報に係る抽出語音声ファイル551と変換語音声ファイル552とを、変換情報毎に、保存する。
音響分析部51は、復号部120により復号された音声信号を分析する。例えば、音響分析部51は、アナログデジタル変換後、高速フーリエ変換(FFT)などを用いて、復号部120からの音声信号を周波数成分に変換して周波数解析(スペクトル解析)を行なう。音響分析部51は、受信した音声信号から、音の周波数成分や強弱、音と音の間隔、時系列の音の特徴などを数値化した値(音響特徴量)を求める。
ここで、音響分析部51は、音素と音響特徴量との関係を統計的なモデルである音響モデルを参照して、受信した音声信号の音響特徴量に基づいて、受信した音声信号の音素を解析して、音声波形を含む解析結果を抽出語音声変換部52に与える。
抽出語音声変換部52は、音響分析部51からの解析結果と、音声ファイル保存部55に保存されている抽出語音声ファイル551とを比較して、抽出語531の音声波形を検出する。抽出語531の音声波形が検出されたとき、抽出語音声変換部52は、抽出語531の音声波形を、対応する変換語532の音声波形に変換して音声化部56に出力する。
抽出語音声変換部52は、抽出語検出部521、特定部522、置換部523を有する。
抽出語検出部521は、音声ファイル保存部55を参照して、受信した音声信号の音声認識結果に、抽出語531の音声波形が含まれているか否かを検出する。
特定部522は、抽出語検出部521によって、抽出語531の音声波形が検出されると、検出された抽出語531の音声波形の時間区間を特定する。
置換部523は、特定部522により特定された、抽出語531の音声波形の時間区間に、変換語532の音声波形を置換する。つまり、置換部523は、抽出語531の音声波形を、変換語532の音声波形に変換する。
音声化部56は、抽出語音声変換部52から出力された音声データを音声信号に変換してスピーカー15に出力する。
(A-2)第1の実施形態の動作
次に、第1の実施形態の通信端末1において、抽出語の音声を変換語の音声に変換する音声処理方法を、図面を参照しながら説明する。
図5は、第1の実施形態において、登録された変換情報に基づいて、音声ファイルを生成する処理を説明するフローチャートである。
[ステップS101]
まず、ユーザが、キーボード等の入力部12を操作して、抽出語531と、抽出語531に代えて音声出力させる変換語532を入力する。登録部53は、入力部12からテキスト入力された抽出語531と変換語532とを関連づけて記憶する(ステップS101)。
例えば、オンライン会議で、講師Tが受講者SA~SNに呼び掛ける「皆さん」という言葉を発し、「鈴木さん」という受講者SAの名前に変換しようとする。その場合、ユーザは、抽出語531として「皆さん」、変換語532として「鈴木さん」をテキスト入力して、登録部53に登録する。
ここで、抽出語531及び変換語532は、受講者Sn(A≦n≦N)が任意に個別設定できる。これにより、講師Tの講義を聴く受講者Snの好みにより、抽出語531と変換語532を決めることができるので、受講者Snが関心をもって受講できる。
ここで変形例を示す。例えば、講師T側(又は会議システムのホスト側)が、変換対象とする抽出語531を事前に用意しておく。会議開始前に、抽出語531のリストを受講者Snに知らせ、その抽出語531に対する変換語532については各受講者Snが任意に設定できるようにしてもよい。このように、変換対象とする抽出語531を事前に用意しておくことで、受講者Snによる自由な設定を制限することができる。講師T側が用意する抽出語531のリストは、各受講者が閲覧可能な状態であれば、様々な方法を適用できる。また、通信端末1と通信端末2とを介して、講師Tと各受講者Snとの間でコミュニケーションを図り、ある受講者Snが、ある抽出語531を希望し講師Tが受け入れ可能であれば、新たに抽出語531を追加登録できるようにしてもよい。
別の変形例を示す。登録部53は、受講者Snにより設定された抽出語531及び変換語532に関する情報(すなわち、受講者設定のリスト)を、講師T側(ホスト側)の通信端末2に送信するようにしてもよい。これにより、講師T側が、どの受講者Snが、どのように抽出語531及び変換語532を設定したかを知ることができる。
さらに、別の変形例を示す。抽出語531及び変換語532は、任意のタイミングで設定可能であり、例えば、受講者Snが会議システムへのログイン後に設定できる。また、受講者Snは講義中に設定することも可能であり、受講者Snは、抽出語531、変換語532の変更もすることができる。
[ステップS102]
次に、変換部54は、音響モデル(コーパス)を用いて、登録部53に登録されている抽出語531のテキストデータに基づいて、抽出語531の音声を生成する。同様に、変換語532についても、変換部54は、変換語532のテキストデータに基づいて、変換語532の音声を生成する(ステップS102)。
[ステップS103]
変換部54は、所定の音声ファイルフォーマットに従って生成した、抽出語音声ファイル551と変換語音声ファイル552を関連付けて、音声ファイル保存部55に保存する(ステップS103)。
なお、変換部54によるテキストデータを音声に変換する方法は、既存技術を広く適用することができる。
また、音声変換の際、例えば、女性の声、男性の声などのように、複数種類の音響モデル(コーパス)を用意しておき、受講者Snが任意に選択できるようにしてもよい。
図6は、第1の実施形態に係る通信端末1における音声処理方法の動作を示すフローチャートである。
以下の説明では、オンライン会議が開始しているものとする。各受講者Snの通信端末1-nは、通信端末2が送信した講師Tの音声を含むパケットを受信している。通信端末1-nでは、復号部120が、受信した音声データを復号して、音声変換部5に出力する。
[ステップS201、S202]
音響分析部51は、復号部120により復号された音声信号を取得し(ステップS201)、音声信号の周波数解析を行ない、音響特徴量を分析する。そして、音響分析部51は、事前設定された音響モデル等を参照して、音響特徴量に基づく音声波長を求めて、その音声波長含む解析結果を、抽出語音声変換部52に与える(ステップS202)。
[ステップS203,S204,S205]
抽出語音声変換部52では、抽出語検出部521が、音声ファイル保存部55に保存されている抽出語音声ファイル551を参照して、抽出語531の音声波形と、音響分析部51からの音声波形とを比較する(ステップS203)。そして、パターンマッチングにより抽出語531の音声波形と一致する部分があるか否かを、抽出語検出部521が判断する。
音響分析部51からの音声波形に、抽出語531の音声波形(パターン)が含まれている場合(ステップS204/YES)、抽出語531の音声波形が含まれている時間区間を特定部522が特定して抽出する。その時間区間に、抽出語531に対応する変換語532の音声波形を、置換部523が置換する(ステップS205)。
他方、音響分析部51からの音声波長に抽出語531の音声波形(パターン)が含まれていない場合(ステップS204/NO)、ステップS204の処理を繰り返し行なう。音響分析部51から連続的に与えられる音声波形に抽出語531の音声波形が含まれているか否かを、抽出語検出部521が判断する。
なお、抽出語531の音声波形が検出されなかった音声波形は、音声変換せず、受講者に届ける音声であるため、音声化部56にそのまま与えられる。
[ステップS206]
音声化部56は、抽出語音声変換部52からの音声データを音声信号に変換してスピーカー15に出力する(ステップS206)。
なお、抽出語531を変換語532に変換する場合、抽出語531の音声パターンの時間長と、変換語532の音声パターンの時間長とが一致しない場合も考えられる。
その場合、上述した実施形態のように、置換部523が、単純に変換語532の音声パターンをそのまま置換することができる。また、その変形例として、変換語が再生される速度が登録時とことなるが、変換語532の音声パターンの時間長を伸縮させて置換するようにしてもよい。
(A-3)第1の実施形態の効果
以上のように、第1の実施形態によれば、受講者側の通信端末1において、変換したい言葉を事前に登録しておけば、講師は話す言葉の中で、該当する言葉が含まれているときに、事前登録した言葉に変換して出力することができる。
例えば、図2に示すように、講師Tの「皆さん」という言葉が、それぞれ受講者の自分の名前に変換されて出力できるため、1対1で講義を受けているように、受講者は親近感を持って臨場感ある講義などを聞くことができる。
(B)第2の実施形態
次に、本開示に係る音声処理装置、音声処理方法、音声処理プログラム及び通信システムの第2の実施形態を、図面を参照して説明する。
第1の実施形態では、抽出語の音声、変換語の音声については、キーボード等の入力部12から入力したテキストデータを、事前設定した音響モデルを用いて音声を生成する場合を例示した。
そうすると、抽出語及び変換語の音声特徴量が、話者(例えば、講師T)の音声特徴量とは異なるため、音声特徴量が一致せず、抽出語の音声の抽出精度が低くなることが生じ得る。また変換語の音声を置換した部分だけ特徴の異なる音声が出力されるので、違和感が生じ得る。
そこで、第2の実施形態は、例えば講師などの話者の音声、受講者などのユーザの音声を録音した録音音声を用いて、抽出語の音声、変換語の音声を生成して抽出、変換をできるようにする。
(B-1)第2の実施形態の構成
第2の実施形態は、受講者Snの通信端末1における音声変換部5の機能をさらに拡張させたものである。
したがって、第2の実施形態の音声変換部を「音声変換部5A」と表記して、第2の実施形態の音声変換部5Aの特徴的な構成及び処理動作を中心に詳細に説明する。
他方、音声変換部5A以外の構成要素については、基本的には、第1の実施形態で説明したものと同じであるため、第2の実施形態でも、第1の実施形態の図2~図4を用いる。
図7は、第2の実施形態に係る音声変換部5Aの内部構成を示す内部構成図である。
図7において、第2の実施形態の音声変換部5Aは、音響分析部51、抽出語音声変換部52、登録部53、変換部54、音声ファイル保存部55、音声化部56に加えて、録音部57、録音音声記憶部58、再生抽出部59を有する。
なお、登録部53、変換部54、録音部57、録音音声記憶部58、再生抽出部59を含むものを音声ファイル登録部7Aと呼ぶ。
音声変換部5Aは、基本的には、第1の実施形態で説明した音声変換部5と同じ構成を備える。
加えて、音声変換部5Aは、受信した音声を録音したり、及び又は、マイク16を使って音声を録音したりして、録音した音声をファイル化して保存する機能を備える。
録音部57は、音声化部56から出力される音声、又はスピーカー15で再生された音声を録音して録音音声記憶部58に記憶する。また、録音部57は、マイク16を通じて、ユーザ(例えば、受講者など)が発した音声を録音して録音音声記憶部58に記憶する。すなわち、録音部57は、受信した音声を録音したり、マイク16からの音声を録音したりする。例えば、入力部12を通じてユーザ(例えば、受講者等)により、録音する音声がいずれの音声を録音するかについては、ユーザ(例えば、受講者など)による入力部12で選択することができる。録音部57は、オンライン会議の音声符号化方式に対応のファイル形式で録音する。
録音音声記憶部58は、録音部57により録音された音声を記憶する部分である。録音音声記憶部58は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、フラッシュメモリ―などの記憶装置とすることができる。
再生抽出部59は、入力部12からの再生開始信号を取得すると、録音音声記憶部58の指定した録音音声を再生する。そして、入力部12からの抽出開始信号と抽出終了信号とにより、再生している録音音声の中から、抽出語又は変換語とする音声区間が指定され、その音声区間の音声を再生抽出部59が抽出する。これにより、録音音声から、抽出語の音声、又は変換語の音声を抽出することができる。なお、再生抽出部59は、入力部12からの再生終了信号を取得すると、録音音声の再生を終了する。
入力部12は、ユーザ(例えば、受講者Sn)の操作により、受信した音声を録音するのか又はマイク16から入力した音声を録音するのかのいずれかの方法を指定し、録音の開始又は終了を示す録音開始信号又は録音終了信号を録音部57に出力する。
なお、事前に設定した時間を録音時間とする場合、入力部12は録音終了信号を録音部57に出力しなくてもよい。つまり、入力部12が録音開始信号を録音部57に出力すると、録音部57は録音を開始し、所定時間後経過後、自動的に録音を終了するようにしてもよい。
また、入力部12は、録音音声記憶部58に記憶されている録音音声の中から、指定した録音音声を再生又は終了させる、再生開始信号又は再生終了信号を、再生抽出部59に指示する。
さらに、入力部12は、再生している録音音声について、抽出語の音声、又は変換語の音声が存在している音声区間を特定するため、抽出開始信号及び抽出終了信号を、再生抽出部59に出力する。
また、入力部12は、抽出語の音声ファイルを作成するのか、又は変換語の音声ファイルを作成するのかを再生抽出部59に指示し、抽出語の音声ファイルと変換語の音声ファイルとを関連付けて保存することを指示する。
(B-2)第2の実施形態の動作
次に、第2の実施形態の通信端末1における音声処理方法を、図面を参照しながら説明する。
第2の実施形態の音声処理方法は、基本的には、第1の実施形態の図5及び図6に示す音声処理方法を適用することができる。
以下では、録音音声から、抽出語の音声、又は変換語の音声を抽出して音声ファイルを生成する処理の動作を説明する。
(B-2-1)受信音声から抽出語(又は変換語)の音声ファイルを生成する処理
図8は、第2の実施形態において、受信した音声を録音した録音音声から、抽出語の音声ファイルを生成する処理を示すフローチャートである。
ここでは、説明を簡単にするため、抽出語の音声ファイルを生成する場合を例示するが、変換語の音声ファイルを生成する場合にも同様に適用できる。
また、講義中に講師Tが発した音声を全て録音するものとする。例えば、連続的に行なわれる講義であれば、今回の講義で講師Tが発した音声を全て録音しておき、録音音声を再生して、その中からユーザが希望する抽出語の音声を抽出して抽出語の音声ファイルを作成することができる。こうすることで、次回の講義で、講師Tの音声特徴の抽出語の音声ファイルを用いて音声変換処理が可能となる。このようなケースを例示するが、勿論、これに限定されない。
[ステップS301、S302]
録音音声記憶部58に記憶されている録音音声を再生するため、ユーザによる操作を受けて、入力部12は再生抽出部59に再生開始信号を出力する。
再生抽出部59は、入力部12から再生開始信号を取得すると(ステップS301)、録音音声記憶部58に記憶されている録音音声を再生する(ステップS302)。
例えば、再生される録音音声は、スピーカー15から出力される。ユーザは、スピーカー15から出力される録音音声を聞きながら、ユーザ希望の抽出語の音声を特定する。
[ステップS303、S304]
再生される録音音声の中で、ユーザが希望する、変換対象とする抽出語の音声を抽出するため、ユーザによる操作を受けて、当該抽出語の音声の開始位置を特定する抽出開始信号を、入力部12が再生抽出部59に出力する。また、当該抽出語の音声の終了位置を特定する抽出終了信号を、入力部12が再生抽出部59に出力する。
つまり、再生抽出部59は、入力部12から抽出開始信号を取得し(ステップS303)、その後、入力部12から抽出終了信号を取得する(ステップS304)。
例えば、ユーザがキーボードの特定キーを1回押下すると抽出開始信号が出力され、2回押下すると抽出終了信号が出力される、などのように、ユーザによる操作を簡単にする方法を適用できる。
[ステップS305]
その後、再生抽出部59は、入力部12から再生終了信号を取得すると(ステップS305)、録音音声の再生を終了する。
[ステップS306、S307]
再生抽出部59は、抽出開始信号と抽出終了信号で特定された音声区間の音声を、抽出語の音声として抽出する(ステップS306)。そして、再生抽出部59は、所定の音声ファイルフォーマットに従って、抽出語音声ファイル551を生成して、音声ファイル保存部55に保存する(ステップS307)。
なお、このとき、抽出語音声ファイル551と、変換語音声ファイル552を関連付けて、音声ファイル保存部55に保存する。
[変形例]
上述した(B-2-1)の動作説明では、講師Tの音声を一度全て録音した後に、抽出語とする音声を抽出する場合を例示した。しかし、録音せず、講義中に講師Tが話している音声から、抽出語の音声を抽出するようにしてもよい。
例えば、キーボードで特定キーの押下(例えば、1回押下が抽出開始、2回押下が抽出終了など)するという簡単な操作で抽出語の音声を抽出できるので、オンライン講義中の講師Tの音声から抽出語の音声(又は、変換語の音声)を抽出することができる。
(B-2-2)マイク音声から抽出語(又は変換語)の音声ファイルを生成する処理
図9は、第2の実施形態において、マイク音声を録音した録音音声から、変換語の音声ファイルを生成する処理を示すフローチャートである。
つまり、マイク16を使って、ユーザが発した音声を録音して、その録音音声から、変換語の音声ファイルを抽出する場合を例示する。なお、抽出語の音声ファイルを生成する場合にも同様に適用できる。
また、図9の処理の中で、図8の処理と同様の処理を適用できるものについては、図8の処理番号を付している。
[ステップS401、S402]
まず、ユーザが希望する変換語の音声ファイルを生成するため、ユーザは、キーボードなどの入力部12を用いて録音操作を行なう。そして、録音部57が、入力部12から録音開始信号を取得すると(ステップS401)、マイク音声の録音を開始する(ステップS402)。
[ステップS403、S404、S405]
ユーザが変換語の音声を発し終えると、ユーザは、入力部12を用いて録音終了操作を行なう。そして、録音部57が、入力部12から録音終了信号を取得すると(ステップS403)、マイク音声の録音を終了して(ステップS404)、録音したマイク音声を録音音声記憶部58に記憶する(ステップS405)。
[ステップS301~S307]
録音音声記憶部58に記憶されているマイク音声を再生するため、ユーザは、キーボード等の入力部12を用いて、マイク音声を指定して、そのマイク音声の再生開始の操作を行なう。
再生抽出部59は、入力部12から再生開始信号を取得すると(ステップS301)、録音音声記憶部58に記憶されているマイク音声を再生する(ステップS302)。
再生されているマイク音声のうち、変換語の音声として抽出する区間を特定するため、ユーザは、入力部12を用いて抽出操作を行なう。再生抽出部59は、入力部12から抽出開始信号を取得し(ステップS303)、その後、入力部12から抽出終了信号を取得する(ステップS304)。
例えば、ユーザがキーボードの特定キーを1回押下すると抽出開始信号が出力され、2回押下すると抽出終了信号が出力される、などのように、ユーザによる操作を簡単にする方法を適用できる。
その後、再生抽出部59は、入力部12から再生終了信号を取得すると(ステップS305)、マイク音声の再生を終了する。
そして、再生抽出部59は、抽出開始信号と抽出終了信号で特定された音声区間の音声を、変換語の音声として抽出する(ステップS306)。そして、再生抽出部59は、変換語音声ファイル552を生成して、抽出語音声ファイル551と関連付けて、音声ファイル保存部55に保存する(ステップS307)。
[変形例]
上述した(B-2-2)の動作説明では、ユーザの声を一度録音した後に、変換語とする音声を抽出する場合を例示した。しかし、録音せず、入力されたマイク音声をそのまま変換語の音声としてもよい。
(B-3)第2の実施形態の効果
以上のように、第2の実施形態によれば、第1の実施形態の効果に加えて、以下の効果を得ることができる。
オンライン会議で話者が発話した音声から、抽出語の音声、又は変換語の音声を切り出して、音声ファイルを生成することができる。その結果、抽出語の抽出精度を向上させることができる。また、音声特徴が近い変換語の音声を置換できるので、違和感を抑えることができる。
(C)他の実施形態
上述した第1及び第2の実施形態においても種々の変形実施形態を言及したが、本開示は、以下の変形実施形態にも適用できる。
(C-1)上述した第1及び第2の実施形態では、会議システム9を利用した講義で、「皆さん」など多数の受講者に呼びかける言葉を抽出語とする場合を例示した。しかし、変換対象とする抽出語は、呼びかける言葉に限られない。
抽出語の音声と変換語の音声との変換情報の登録を変えることにより、例えば、会話内容を変えることや、好ましくない言葉を別の言葉に代えることができる。例えば、変換語の音声ファイルを加工して、変換語の音声の抑揚に強弱をつけたり、音程などを変えることにより、淡々と説明する会議内容にしたり、逆に抑揚のある会議内容にしたりすることができる。
(C-2)音響分析部51及び抽出語音声変換部52は、一般的な音声パターン一致でも良いし、AI機能を持たせた音声認識であれば、より抽出精度が向上する。例えば録音ファイルから変換ミス、例えば『皆さん』を抽出できなかった場合、再度抽出ファイルとして登録することによりAI機能で学習させることも可能である。
(C-3)抽出語の音声ファイルと、これに対応する変換語の音声ファイルとを応用して、例えば、ある地域の方言の言葉を標準語に変換したり、逆に標準語を方言の言葉に変換したりしてもよい。
例えば、ある地方の方言の言葉の音声ファイルと、標準語の音声ファイルとを関連付けた音声ファイル辞書(音声ファイルを収録したもの)を事前に用意しておく。そして、会議開催前に、その辞書をダウンロードして通信端末内にインストールしておくことで実現できる。
より具体的に、図10のように、北海道弁用音声ファイル辞書6A、…、沖縄弁用音声ファイル辞書6Zなどのように、地方別の音声ファイル辞書を、通信端末に記憶できるように用意しておく。通信端末に記憶できるのであれば、会議の主催者側が各受講者に配布してもよいし、クラウドサーバに記憶してダウンロード可能な状態にしておいてもよい。
このように、方言の言葉と、標準語との間で変換できるようにすることで、ある地方出身の講師が話す言葉を標準語に変換できるので、受講者にとって聞きやすくすることができる。逆に、標準語を話す講師の言葉を、ある地方の方言に変換できるので、その地方出身の受講者にとっては、親しみのある会議をうけることができる。
(C-4)第2の実施形態は、第1の実施形態の機能に対して追加的な構機能として適用できる。その場合、抽出語及び変換語の音声ファイルを、テキストデータで生成するか、又は録音音声から抽出して生成するかの動作モードをユーザによって選択できる。
また、第2の実施形態で説明した機能は、第1の実施形態の構成を前提とせず、独立した機能として用いることができる。
9…オンライン会議システム、1(1-1~1-N)…通信端末、2…通信端末、3…会議サーバ、
10…制御部、11…記憶部、12…入力部、13…表示部、14…通信部、15…スピーカー、16…マイク、100…音声処理部、110…符号化部、120…復号部、
5及び5A…音声変換部、7及び7A…音声ファイル登録部、51…音響分析部、52…抽出語音声変換部、521…抽出語検出部、522…特定部、523…置換部、53…登録部、54…変換部、55…音声ファイル保存部、551…抽出語音声ファイル、552…変換語音声ファイル、56…音声化部、57…録音部、58…録音音声記憶部、59…再生抽出部。

Claims (7)

  1. 第1の語の音声波形を含む第1の音声ファイルと、前記第1の語に代えて置き換える第2の語の音声波形を含む第2の音声ファイルとを関連付けて保存する音声ファイル保存手段と、
    音声信号の受信側で、前記第1の音声ファイル及び前記第2の音声ファイルを作成して、前記音声ファイル保存手段に保存する音声ファイル登録手段と、
    前記音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に前記第1の語の音声波形が含まれているときに、前記第1の語の音声波形を、当該第1の語に関連付けられた前記第2の語の音声波形に変換する音声変換手段と、
    を備えることを特徴とする音声処理装置。
  2. 前記音声ファイル登録手段が、
    入力部から入力された前記第1の語のテキストデータ及び前記第2の語のテキストデータのそれぞれを取得し、予め設定された音響モデルを用いて、前記第1の語の音声波形及び前記第2の語の音声波形を生成して、前記第1の音声ファイル及び前記第2の音声ファイルを作成する
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記音声ファイル登録手段が、
    受信した音声信号に基づいて再生した音声に含まれている特定語を、前記第1の語及び又は前記第2の語とするとき、入力部からの抽出指示により抽出した前記特定語の音声波形を、前記第1の語の音声波形及び又は前記第2の語の音声波形として、前記第1の音声ファイル及び又は前記第2の音声ファイルを作成する
    ことを特徴とする請求項1に記載の音声処理装置。
  4. 前記音声ファイル登録手段が、
    マイクロフォンを通じてユーザが発した語を、前記第1の語及び又は前記第2の語とするとき、前記ユーザが発した語の音声波形を、前記第1の語の音声波形及び又は前記第2の語の音声波形として、前記第1の音声ファイル及び又は前記第2の音声ファイルを作成する
    ことを特徴とする請求項1又は3に記載の音声処理装置。
  5. 第1の語の音声波形を含む第1の音声ファイルと、前記第1の語に代えて置き換える第2の語の音声波形を含む第2の音声ファイルとを関連付けて保存する音声ファイル保存手段を備え、
    音声ファイル登録手段が、音声信号の受信側で、前記第1の音声ファイル及び前記第2の音声ファイルを作成して、前記音声ファイル保存手段に保存し、
    音声変換手段が、前記音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に前記第1の語の音声波形が含まれているときに、前記第1の語の音声波形を、当該第1の語に関連付けられた前記第2の語の音声波形に変換する
    ことを特徴とする音声処理方法。
  6. コンピュータを、
    第1の語の音声波形を含む第1の音声ファイルと、前記第1の語に代えて置き換える第2の語の音声波形を含む第2の音声ファイルとを関連付けて保存する音声ファイル保存手段と、
    音声信号の受信側で、前記第1の音声ファイル及び前記第2の音声ファイルを作成して、前記音声ファイル保存手段に保存する音声ファイル登録手段と、
    前記音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に前記第1の語の音声波形が含まれているときに、前記第1の語の音声波形を、当該第1の語に関連付けられた前記第2の語の音声波形に変換する抽出語音声変換手段と、
    して機能させることを特徴とする音声処理プログラム。
  7. ネットワークを介して、1対N又はN対Mにて音声通信を行なう通信システムにおいて、
    複数の通信端末のそれぞれは、音声信号を受信する受信側として、
    第1の語の音声波形を含む第1の音声ファイルと、前記第1の語に代えて置き換える第2の語の音声波形を含む第2の音声ファイルとを関連付けて保存する音声ファイル保存手段と、
    音声信号の受信側で、前記第1の音声ファイル及び前記第2の音声ファイルを作成して、前記音声ファイル保存手段に保存する音声ファイル登録手段と、
    前記音声ファイル保存手段を参照して、受信した音声信号を解析して、当該受信した音声信号の波形に前記第1の語の音声波形が含まれているときに、前記第1の語の音声波形を、当該第1の語に関連付けられた前記第2の語の音声波形に変換する抽出語音声変換手段と、
    を備えることを特徴とする通信システム。
JP2022134991A 2022-08-26 2022-08-26 音声処理装置、音声処理方法、音声処理プログラム及び通信システム Pending JP2024031442A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022134991A JP2024031442A (ja) 2022-08-26 2022-08-26 音声処理装置、音声処理方法、音声処理プログラム及び通信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022134991A JP2024031442A (ja) 2022-08-26 2022-08-26 音声処理装置、音声処理方法、音声処理プログラム及び通信システム

Publications (1)

Publication Number Publication Date
JP2024031442A true JP2024031442A (ja) 2024-03-07

Family

ID=90106495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022134991A Pending JP2024031442A (ja) 2022-08-26 2022-08-26 音声処理装置、音声処理方法、音声処理プログラム及び通信システム

Country Status (1)

Country Link
JP (1) JP2024031442A (ja)

Similar Documents

Publication Publication Date Title
US20240153523A1 (en) Automated transcript generation from multi-channel audio
US10334384B2 (en) Scheduling playback of audio in a virtual acoustic space
US8027276B2 (en) Mixed mode conferencing
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
WO2017006766A1 (ja) 音声対話方法および音声対話装置
US11810585B2 (en) Systems and methods for filtering unwanted sounds from a conference call using voice synthesis
CN111739536A (zh) 一种音频处理的方法和装置
US20240029753A1 (en) Systems and methods for filtering unwanted sounds from a conference call
US20200075000A1 (en) System and method for broadcasting from a group of speakers to a group of listeners
JP2003228279A (ja) 音声認識を用いた語学学習装置、語学学習方法及びその格納媒体
JP3936351B2 (ja) 音声応答サービス装置
US6501751B1 (en) Voice communication with simulated speech data
JP2024031442A (ja) 音声処理装置、音声処理方法、音声処理プログラム及び通信システム
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
KR20030065259A (ko) 음성인식을 이용한 어학학습장치, 어학학습 방법, 및 그저장매체
JP2002023787A (ja) 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP7344612B1 (ja) プログラム、会話要約装置、および会話要約方法
JP3760420B2 (ja) 音声応答サービス装置
CN113096674B (zh) 一种音频处理方法、装置及电子设备
Ratnaningsih et al. The Analyze of Android's microphone audio streaming BeatME
JP7296214B2 (ja) 音声認識システム
JP6911398B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP2024004462A (ja) ロールプレイング形式の会話コンテンツを提供する方法、装置、およびコンピュータプログラム