JP7096634B2

JP7096634B2 - 音声認識支援装置、音声認識支援方法及び音声認識支援プログラム

Info

Publication number: JP7096634B2
Application number: JP2019043691A
Authority: JP
Inventors: 一則和久井; 博章三沢; 博基古川
Original assignee: Hitachi Industry and Control Solutions Co Ltd
Current assignee: Hitachi Industry and Control Solutions Co Ltd
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2022-07-06
Anticipated expiration: 2039-03-11
Also published as: JP2020148814A

Description

本発明は、音声認識支援装置、音声認識支援方法及び音声認識支援プログラムに関する。

近時、人間が発した音声を意味の通じるテキストに変換する音声認識装置が普及している。変換後のテキストは、例えば会議の議事録を作成するシステムに対して入力される。このような音声認識装置は、例えば、予め記憶している単語辞書に基づき、音声をテキストに変換する。単語辞書は、音声の波形見本とテキストとの対応関係を記憶している。しかしながら、音声がその発話者独特の特徴を有している場合、又は、音声が環境音の影響を受けている場合、音声は、発話者が意図したテキストには変換されない。多くのユーザは、変換後のテキストがこのような誤認識を含むことを前提に、テキストの誤認識部分を手作業で修正している。

特許文献１の辞書更新装置は、単語辞書を使用して音声認識を行った結果であるテキストと、そのテキストに対してユーザが修正を加えた結果であるテキストを比較し、その単語辞書に追加登録する単語の候補を抽出する。当該辞書更新装置は、仮にその候補を単語辞書に登録した場合にその後の音声認識に与える影響も併せて表示する。

特開２０１８－４０９０６号公報

特許文献１の辞書更新装置のユーザは、まず、修正を加えるべき部分をテキスト中から探し出さなくてはならない。特にテキストが長文である場合、ユーザの負担は大きい。しかしながら、特許文献１は、ある文字列を他の文字列に修正する場合、他の文字列の候補をいかに選ぶかということに注意を集中しており、ある文字列をどのように探し出すかについては言及していない。さらに、たとえ単語辞書が充実しても、発話者独特の特徴及び環境音によって音声が影響を受けるという問題は依然として残る。
そこで、本発明は、音声認識後のテキストにおける要修正部分を素早く発見することを目的とする。

本発明の音声認識支援装置は、元音声を取得する音声取得部と、前記元音声の波形からある周波数成分を削除する第１の加工パタンを使用して第１の加工音声を作成し、前記元音声の波形から他の周波数成分を削除する第２の加工パタンを使用して第２の加工音声を作成する音声加工部と、前記元音声を元テキストに変換するとともに、前記第１の加工音声を第１の加工テキストに変換し、前記第２の加工音声を第２の加工テキストに変換する音声認識部と、前記元テキストと前記第１の加工テキストとの差分、及び、前記元テキストと前記第２の加工テキストとの差分の和集合をあいまい部分として抽出するあいまい部分抽出部と、前記抽出したあいまい部分のうちユーザが選択したものに対応する前記元音声を音声として再生するテキスト修正部と、を備え、前記音声加工部は、前記あいまい部分がユーザに選択された回数に基づき、次回以降に使用する前記第１の加工パタンにおいて削除する周波数成分及び前記第２の加工パタンにおいて削除する周波数成分の組合せを、前記ある周波数成分と前記他の周波数成分との複数の無作為の組合せのうちから選択すること、を特徴とする。その他の手段については、発明を実施するための形態のなかで説明する。

本発明によれば、音声認識後のテキストにおける要修正部分を素早く発見することができる。

音声認識支援装置の構成を説明する図である。（ａ）は、あいまい部分の検出方法を説明する図である。（ｂ）は、あいまい部分の意義を説明する図である。修正履歴情報の一例である。音声認識用辞書の一例である。処理手順のフローチャートである。元テキスト及び加工テキストの例である。あいまい部分の例である。あいまい部分抽出済テキストの例である。（ａ）、（ｂ）及び（ｃ）は、音声認識支援画面の一例を示す図である。

以降、本発明を実施するための形態（“本実施形態”という）を、図等を参照しながら詳細に説明する。本実施形態は、ユーザがマイクロフォンに向かって発話した音声を業務用文書の原稿とする例である。

（音声認識支援装置）
図１に沿って、音声認識支援装置１の構成を説明する。音声認識支援装置１は、一般的なコンピュータであり、中央制御装置１１、マウス、キーボード等の入力装置１２、ディスプレイ、スピーカ等の出力装置１３、主記憶装置１４、補助記憶装置１５及びマイクロフォン１６を備える。これらは、バスで相互に接続されている。補助記憶装置１５は、修正履歴情報３１及び音声認識用辞書３２（いずれも詳細後記）を格納している。

主記憶装置１４における音声取得部２１、音声加工部２２、音声認識部２３、あいまい部分抽出部２４、注意部分抽出部２５、テキスト修正部２６及び表示処理部２７は、プログラムである。中央制御装置１１は、これらのプログラムを補助記憶装置１５から読み出し主記憶装置１４にロードすることによって、それぞれのプログラムの機能（詳細後記）を実現する。補助記憶装置１５は、音声認識支援装置１から独立した構成となっていてもよい。

（語句の定義等）
“音声”とは、発話者の声帯の振動を示す時間軸の波形（声紋）である。発話者は、奇声、悲鳴、嘆息等意味のない音声を発することもあるが、本実施形態での音声は、多くの場合、人間の思考、事実等を表現している。音声認識支援装置１は、音声の波形をアナログ情報のまま、又は、デジタル情報に変換したうえで記憶し、また、処理の対象とする。

“テキスト”とは、自然言語の文字列である。
“変換”とは、音声認識支援装置１が音声をテキストに置換することである。一般に、変換は、“音声認識”とも呼ばれる。
“加工”とは、音声認識支援装置１が音声の波形の一部を変更することである。
“修正”とは、音声認識支援装置１がユーザの指示に従いテキストの一部を変更することである。

“あいまい部分”とは、変換後のテキストのうち、発話者独特の特徴が反映された結果、又は、環境音の影響を受けた結果、発話者が本来意図したものになっていないと音声認識支援装置１が判断した部分である。
“注意部分”とは、変換後のテキストのうち、過去において他のテキストに修正された履歴を有する部分である。
ユーザは、あいまい部分を修正することもあるし、注意部分を修正することもあるし、その他の部分を修正することもある。

（あいまい部分の検出）
図２（ａ）は、あいまい部分の検出方法を説明する図である。音声認識支援装置１は、マイクロフォン１６（図１）から元音声２ａを取得する。“元”は、“加工の前”を意味する。音声認識支援装置１は、元音声２ａのコピーを複数（図２では２個）作成する。

音声認識支援装置１は、ある加工３ｂを一方のコピーに施し、加工音声４ｂを作成する。加工３ｂは、元音声２ａと加工音声４ｂとの同一性を失わせるほどの大規模なものではなく、いわば部分的な微変更である（詳細後記）。音声認識支援装置１は、加工３ｃを他方のコピーに施し、加工音声４ｃを作成する。加工３ｃは、加工３ｂとは異なるが、加工３ｃもまた、元音声２ａと加工音声４ｃとの同一性を失わせるほどの大規模なものではなく、部分的な微変更である。

音声認識支援装置１は、元音声２ａ、加工音声４ｂ及び加工音声４ｃを、それぞれ、元テキスト６ａ、加工テキスト６ｂ及び加工テキスト６ｃに変換（音声認識５）する。すると、元テキスト６ａ、加工テキスト６ｂ及び加工テキスト６ｃは、多くの場合、相互に異なるものとなる。

音声認識支援装置１は、元テキスト６ａと加工テキスト６ｂとの差分を差分７ａｂとして検出し、元テキスト６ａと加工テキスト６ｃとの差分を差分７ａｃとして検出する。音声認識支援装置１は、差分７ａｂと差分７ａｃとの和集合７ａｂｃを作成してもよい。ここで検出された差分７ａｂ、差分７ａｃ又は和集合７ａｂｃが“あいまい部分”である。

（あいまい部分の意義）
図２（ｂ）は、あいまい部分の意義を説明する図である。音声の波形は多次元ベクトルとして表現できる。つまり、音声の波形は、多次元空間に点として描画することができる。以降では、説明を単純化するために、多次元空間のうち最も単純な２次元平面を例として挙げる。音声認識支援装置１は、多くの人間が“せいしん”と発話した音声の例を２次元平面に点として描画する。すると多くの点は、２次元平面のある領域に集まる。音声認識支援装置１は、これらの点を含むクラスタ８ａを作成する。

同様に、音声認識支援装置１は、多くの人間が“せいひん”及び“せいきん”と発話した場合のクラスタ８ｂ及び８ｃを作成する。音声からテキストへの変換とは、２次元平面内のある点を、その点が属するクラスタに関連付けられている読み“せいしん”等に変換することに他ならない。一般的には、例えば、読み“せいしん”に合致する複数の同音異義語のなかから文脈に合致する“精神”等が選択されることになる。いま、説明を単純化するために、同音異義語については捨象して説明を続ける。

音声の波形を示す３つの点●として、点●５１ａ、５２ａ及び５３ａが存在する。これらは、クラスタ８ａに属している。つまり、音声認識支援装置１は、点●５１ａ、５２ａ及び５３ａを、“せいしん”に変換している。点●５２ａに対して音声認識支援装置１は、加工３ｂを施す。すると、加工後の点◎５２ｂは、クラスタ８ｂに属することになる。点●５１ａに対しても音声認識支援装置１は、加工３ｂを施す。しかしながら、加工後の点◎５１ｂは、クラスタ８ａに属したままである。

点●５３ａに対して音声認識支援装置１は、加工３ｃを施す。すると、加工後の点◎５３ｂは、クラスタ８ｃに属することになる。点●５１ａに対しても音声認識支援装置１は、加工３ｃを施す。しかしながら、加工後の点◎５１ｃは、クラスタ８ａに属したままである。これら２つの例で明らかなように、加工の前後で点が属するクラスタが変化するということは、図２（ａ）において、元テキストと加工テキストとの間で差分が生じることと同値である。

点●５２ａ及び点●５３ａのように、加工を施された後他のクラスタに属するものと、点●５１ａのように、加工を施されても元のクラスタに属したままであるものとが存在する。クラスタの半径に比して、加工を示すベクトルの大きさが充分小さければ、点●がクラスタの中心近くに位置するほど、加工を施された後他のクラスタに属する確率は小さくなるはずである。

逆にいえば、クラスタの周辺領域５４に位置する点●には、もともと発話者の特徴（癖）、環境音等が混じっており、変換されたテキストは、発話者が意図したものではない可能性が高い。したがって、周辺領域５４に位置する点●に対して音声認識支援装置１が加工を施した点◎は、多くの場合、他のクラスタ内、又は、クラスタのない空白領域に押し出される。このような点●が、前記したあいまい部分である。

なお、図示していないが、周辺領域５４にある点●が加工を施された結果、他のクラスタに属するようになるのではなく、偶然、現在属しているクラスタの中心により近付く場合もある。音声認識支援装置１が点●に対して複数の異なる加工を施し、図２（ａ）で和集合７ａｂｃを求めるのは、このような偶然を避けるためである。

（修正履歴情報）
図３は、修正履歴情報３１の一例である。修正履歴情報３１においては、修正前欄１０１に記憶された修正前テキストに関連付けて、修正後欄１０２には修正後テキストが記憶されている。
修正前欄１０１の修正前テキストは、修正前のテキストである。修正前のテキストは、音声認識支援装置１が誤認識（誤変換）した結果である。
修正後欄１０２の修正後テキストは、修正後のテキストである。ユーザは、音声認識支援装置１が提案した修正後のテキストの候補のうちからあるものを選択する場合もあり、直接修正後のテキストを入力する場合もある。ユーザが修正前のテキストを削除した後、テキストを入力しない場合、修正後欄１０２には“（削除）”が記憶される。

（音声認識用辞書）
図４は、音声認識用辞書３２の一例である。音声認識用辞書３２においては、音声欄１１１に記憶された音声に関連付けて、テキスト欄１１２にはテキストが、読み欄１１３には読みが記憶されている。
音声欄１１１の音声は、前記した音声である。
テキスト欄１１２のテキストは、前記したテキストである。テキストは、同音異義の複数の漢字、片仮名、英文字、記号等である。
読み欄１１３の読みは、人間がその音声を試聴した場合どのように聞こえるかを示す“発音記号”であり、ここではひらがなである。

（処理手順）
図５は、処理手順のフローチャートである。説明の途中で適宜図６～図９を参照する。
ステップＳ２０１において、音声認識支援装置１の音声取得部２１は、元音声２ａ（図２（ａ））を取得する。具体的には、音声取得部２１は、マイクロフォン１６を介して発話者の音声を取得する。
ステップＳ２０２において、音声認識支援装置１の音声加工部２２は、元音声２ａをコピーする。具体的には、音声加工部２２は、ステップＳ２０１において取得した元音声のコピーをｎ（ｎ＝２、３、・・・）個作成する。説明の単純化のため、ｎ＝２であるとして以降の説明を続ける。

ステップＳ２０３において、音声加工部２２は、コピーした元音声を加工する。ここでの“加工”とは、例えば以下の処理を元音声に対して施すことである。
〈処理１〉音声加工部２２は、元音声から、所定の高周波成分を削除する。
〈処理２〉音声加工部２２は、元音声から、所定の低周波成分を削除する。
〈処理３〉音声加工部２２は、元音声に所定の環境音を付加する。所定の環境音とは、例えば、発話者の環境に特有な、工場雑音、路上雑音、オフィス雑音等である。
〈処理４〉音声加工部２２は、元音声を時間軸方向に伸長又は圧縮する（音声の速度を変える）。

具体的には、第１に、音声加工部２２は、元音声の一方のコピーに対して前記の処理１～４のうちのある処理（図２（ａ）の処理３ｂ）を施し、加工音声４ｂを作成する。加工音声４ｂの波形は、元音声２ａの波形に比して、僅かに異なっている。
第２に、音声加工部２２は、元音声の他方のコピーに対して前記の処理１～４のうち、ステップＳ２０３の“第１”の処理以外の処理（図２（ａ）の処理３ｃ）を施し、加工音声４ｃを作成する。加工音声４ｃの波形は、元音声２ａの波形に比して、僅かに異なっている。また、加工音声４ｃの波形は、加工音声４ｂの波形に比しても、僅かに異なっている。

ステップＳ２０４において、音声認識支援装置１の音声認識部２３は、元音声２ａを元テキスト６ａに変換する。具体的には、第１に、音声認識部２３は、ステップＳ２０１において取得した元音声２ａを変換単位に分解する。このとき、音声認識部２３は、無音区間で区切ることによって元音声２ａを複数の変換単位に分解する。

第２に、音声認識部２３は、ステップＳ２０４の“第１”において分解した変換単位の波形を検索キーとして音声認識用辞書３２（図４）を検索することによって、１つの変換単位の波形を１つのテキストに変換する。同音異義語が複数該当する場合、音声認識部２３は、前後の文脈に応じて、適当なものに変換する。音声認識部２３は、すべての変換単位ごとに、この処理を繰り返すことによって、元テキスト６ａを完成させる。図６の元テキスト６ａは、このときの変換の結果である。

ステップＳ２０５において、音声認識部２３は、加工音声４ｂ（４ｃ）を加工テキスト６ｂ（６ｃ）に変換する。具体的には、第１に、音声認識部２３は、ステップＳ２０４の処理と同様に、ステップＳ２０３の“第１”において作成した加工音声４ｂを加工テキスト６ｂに変換する。図６の加工テキスト６ｂは、このときの変換の結果である。
第２に、音声認識部２３は、ステップＳ２０４の処理と同様に、ステップＳ２０３の“第２”において作成した加工音声４ｃを加工テキスト６ｃに変換する。図６の加工テキスト６ｃは、このときの変換の結果である。

本実施形態においては、元音声２ａを元テキスト６ａに変換する処理主体も、加工音声４ｂ（４ｃ）を加工テキスト６ｂ（６ｃ）に変換する処理主体も、同じ１つの音声認識部２３である。

ステップＳ２０６において、音声認識支援装置１のあいまい部分抽出部２４は、元テキスト６ａと加工テキスト６ｂ（６ｃ）との差分を取得する。具体的には、第１に、あいまい部分抽出部２４は、元テキスト６ａ（図６）と加工テキスト６ｂ（図６）とを比較し、その差分（文字の相違箇所）を取得する。
第２に、あいまい部分抽出部２４は、元テキスト６ａ（図６）と加工テキスト６ｃ（図６）とを比較し、その差分を取得する。

ステップＳ２０７において、あいまい部分抽出部２４は、あいまい部分を抽出する。具体的には、第１に、あいまい部分抽出部２４は、ステップＳ２０６の“第１”において取得した差分をあいまい部分として抽出する。図７の加工テキスト６ｂでは、あいまい部分に下線が施されている。
第２に、あいまい部分抽出部２４は、ステップＳ２０６の“第２”において取得した差分をあいまい部分として抽出する。図７の加工テキスト６ｃでは、あいまい部分に下線が施されている。

第３に、あいまい部分抽出部２４は、ステップＳ２０７の“第１”及び“第２”において抽出したあいまい部分の和集合を取得し、取得した和集合を元テキスト６ａ上に表現する。図８の元テキスト６ａでは、あいまい部分の和集合が下線で表現されている。説明の都合上、図８の元テキスト６ａを“あいまい部分抽出済テキスト”と呼ぶ。あいまい部分の和集合が連続している場合、又は、充分に接近している場合、あいまい部分抽出部２４は、それらをひと纏まりものとして下線で表現してもよい。

ステップＳ２０８において、あいまい部分抽出部２４は、あいまい部分に対応する修正候補を取得する。具体的には、あいまい部分抽出部２４は、あいまい部分抽出済テキストのあいまい部分のそれぞれに対応する１又は複数の修正候補を取得する。あいまい部分が例えば“精神”である場合、あいまい部分抽出部２４は、以下の例に従って“精神”に対応する修正候補を取得する。

・あいまい部分抽出部２４は、音声認識用辞書３２（図４）から、テキスト“精神”に対応する他のテキスト“セイシン”等を取得する。
・あいまい部分抽出部２４は、テキスト“精神”の読み“せいしん”の一部を入れ替えることによって、例えば、読み“せいひん”を作成する。そして、あいまい部分抽出部２４は、音声認識用辞書３２（図４）から、読み“せいひん”に対応するテキスト“製品”及び“清貧”等を取得する。

ステップＳ２０９において、音声認識支援装置１の注意部分抽出部２５は、注意部分を抽出する。具体的には、注意部分抽出部２５は、あいまい部分抽出済テキストから、修正履歴情報３１（図３）の修正前テキストに該当する部分をすべて抽出し、抽出した部分を注意部分とする。前記から明らかなように、あいまい部分が音声の波形の差異に基づくものであるのに対し、注意部分は、ユーザの過去の修正履歴に基づくものである。

ステップＳ２１０において、注意部分抽出部２５は、注意部分に対応する修正候補を取得する。具体的には、注意部分抽出部２５は、あいまい部分抽出済テキストの注意部分のそれぞれに対応する１又は複数の修正候補を取得する。注意部分が例えば“あー”である場合、注意部分抽出部２５は、“あー”を検索キーとして修正履歴情報３１（図３）の修正前欄１０１を検索し、該当したレコードの修正後テキストを取得する。すると、例えば、“（削除）”が取得される。

ステップＳ２１１において、音声認識支援装置１の表示処理部２７は、あいまい部分及び注意部分を表示する。具体的には、表示処理部２７は、出力装置１３に音声認識支援画面４１（図９（ａ））を表示する。音声認識支援画面４１は、あいまい部分抽出済テキストに対して、注意部分の位置を示す目印が付されたものを表示している。つまり、下線が施された部分４２ａ～４２ｅがあいまい部分であり、“[ ]”で括られた部分４３ａ及び４３ｂが注意部分である。なお、ここでの“下線”、“[ ]”等は、強調表示の一例であり、表示処理部２７は、他の態様（字体を変える、色付する等）であいまい部分及び注意部分を強調表示してもよい。

ステップＳ２１２において、表示処理部２７は、修正候補を表示する。いま、ユーザが、図９（ａ）の“精神”４２ｄをマウス等の入力装置１２で選択したとする。すると、表示処理部２７は、その選択を受け付け、ステップＳ２０８において取得した、あいまい部分に対応する修正候補を“精神”に関連付けて表示する。図９（ｂ）では、“精神”４２ｄに関連付けて、修正候補“製品”４４ａ、“清貧”４４ｂ及び“セイシン”４４ｃが表示されている。

さらに、ユーザが、図９（ａ）の“あー”４３ａをマウス等の入力装置１２で選択したとする。すると、表示処理部２７は、その選択を受け付け、ステップＳ２１０において取得した、注意部分に対応する修正候補を“あー”に関連付けて表示する。図９（ｃ）では、“あー”４３ａに関連付けて、修正候補“（削除）”４５が表示されている。

ステップＳ２１３において、音声認識支援装置１のテキスト修正部２６は、修正を受け付ける。いま、ユーザが音声認識支援画面４１（図９（ｂ））において、“製品”４４ａをマウス等の入力装置１２で選択したとする。すると、第１に、テキスト修正部２６は、その選択を受け付け、あいまい部分抽出済テキストの“精神”を“製品”に修正する。このとき、テキスト修正部２６は、スピーカ等の出力装置１３を介して、“精神”に対応する音声の波形（発話者が実際に発話した波形）を音声として再生してもよい。

第２に、テキスト修正部２６は、修正履歴情報３１（図３）の新たなレコードを作成し、修正前欄１０１に“精神”を記憶し、修正後欄１０２に“製品”を記憶する。
その後処理手順を終了する。

（あいまい部分の検出方法の変形例）
前記では、あいまい部分抽出部２４は、元テキストと加工テキストの差分を取得するに際し、文字（文字コード）が僅かでも異なる部分を抽出した。このような方法は、比較結果を“同一”又は“異なる”の２値で判断するものである。しかしながら、あいまい部分抽出部２４は、比較対象である単語（変換単位）を任意の方法でベクトル値（Ｗｏｒｄ２Ｖｅｃ等）に変換し、さらに任意の方法でベクトル値同士の類似度（余弦類似度等）を算出してもよい。すると、２つの単語の差分（あいまいさの度合い）が、ある正規化された範囲を連続的に変化するスカラ―値として表現されることになる。あいまい部分抽出部２４は、類似度に対して所定の閾値を適用して、あいまい部分を抽出する。このとき、あいまい部分抽出部２４は、閾値を変化させることによって、例えば“製造”と“製作”とを同じものと判断することも、異なるものと判断することもできる。

（修正履歴情報の学習）
テキスト修正部２６は、ステップＳ２１３の“第２”において、修正履歴情報３１のレコードを作成することによって、修正履歴情報３１はより充実し、ステップＳ２０９において注意部分抽出部２５はより的確な注意部分を抽出できるようになる。

（音声認識用辞書の学習）
テキスト修正部２６は、適宜のタイミングで、音声認識用辞書３２（図４）のテキスト及び読みの組合せと、音声との対応関係を見直してもよい。例えば、ユーザが読み“せいしん”のテキストを読み“せいひん”のテキストに修正する回数が所定の閾値に達した場合、読み“せいしん”に対応する音声を読み“せいひん”に対応する音声に入れ替えてもよい。

（加工の学習）
音声加工部２２は、例えば以下のように複数の加工パタンｍ（ｍ＝１、２、３、・・・）を準備しておく。
〈加工パタンｍ〉音声加工部２２は、音声の波形から、ｍｘ～（ｍ＋１）ｘまでの範囲の周波数成分を削除する。ここで、ｘは、周波数の帯域の幅を示す定数である。

音声加工部２２は、ステップＳ２０３の“第１”及び“第２”において、加工パタンｍのうちの２つの組合せを無作為的に選択して、加工音声４ｂ及び４ｃを作成する。一方、テキスト修正部２６は、ステップＳ２１３において、ユーザがあいまい部分を選択した数をカウントし、選択された２つの加工パタンの組合せにカウント数を関連付けて“加工パタン成績表”（図示せず）として、補助記憶装置１５に記憶しておく。テキスト修正部２６は、加工パタン成績表のレコードが所定の数だけ蓄積された時点で、そのレコードをカウント数が大きい順番に並べなおす。音声加工部２２は、次回のステップＳ２０３の“第１”及び“第２”において、カウント数が最大である２つの加工パタンの組合せを選択する。

（本実施形態の効果）
本実施形態の音声認識支援装置の効果は以下の通りである。
（１）音声認識支援装置は、僅かな波形の相違によってテキストが変わり得るあいまい部分を抽出することができる。
（２）音声認識支援装置は、過去においてユーザが頻繁に修正した注意部分を抽出することができる。
（３）音声認識支援装置は、修正後のテキストの候補を表示することができる。
（４）音声認識支援装置は、音声認識部を冗長に準備する必要がない。
（５）音声認識支援装置は、単純な方法で元音声を加工することができる。

なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

１音声認識支援装置
２ａ元音声
４ｂ、４ｃ加工音声
６ａ元テキスト
６ｂ、６ｃ加工テキスト
１１中央制御装置
１２入力装置
１３出力装置
１４主記憶装置
１５補助記憶装置
１６マイクロフォン
２１音声取得部
２２音声加工部
２３音声認識部
２４あいまい部分抽出部
２５注意部分抽出部
２６テキスト修正部
２７表示処理部
３１修正履歴情報
３２音声認識用辞書

Claims

元音声を取得する音声取得部と、
前記元音声の波形からある周波数成分を削除する第１の加工パタンを使用して第１の加工音声を作成し、前記元音声の波形から他の周波数成分を削除する第２の加工パタンを使用して第２の加工音声を作成する音声加工部と、
前記元音声を元テキストに変換するとともに、前記第１の加工音声を第１の加工テキストに変換し、前記第２の加工音声を第２の加工テキストに変換する音声認識部と、
前記元テキストと前記第１の加工テキストとの差分、及び、前記元テキストと前記第２の加工テキストとの差分の和集合をあいまい部分として抽出するあいまい部分抽出部と、
前記抽出したあいまい部分のうちユーザが選択したものに対応する前記元音声を音声として再生するテキスト修正部と、
を備え、
前記音声加工部は、
前記あいまい部分がユーザに選択された回数に基づき、次回以降に使用する前記第１の加工パタンにおいて削除する周波数成分及び前記第２の加工パタンにおいて削除する周波数成分の組合せを、前記ある周波数成分と前記他の周波数成分との複数の無作為の組合せのうちから選択すること、
を特徴とする音声認識支援装置。
ユーザの修正履歴に基づいて、前記元テキストから注意部分を抽出する注意部分抽出部と、
前記抽出した注意部分を、前記抽出したあいまい部分と同時に出力装置に表示する表示処理部を備えること、
を特徴とする請求項１に記載の音声認識支援装置。
前記あいまい部分抽出部は、
前記抽出したあいまい部分に対応する修正候補を取得し、
前記注意部分抽出部は、
前記抽出した注意部分に対応する修正候補を取得し、
前記表示処理部は、
前記修正候補を、対応するあいまい部分及び注意部分に関連付けて表示すること、
を特徴とする請求項２に記載の音声認識支援装置。
前記音声認識支援装置は、
前記音声認識部を１つだけ備え、
前記音声認識部は、
前記元音声及び１又は複数の前記加工音声を前記元テキスト及び１又は複数の前記加工テキストに変換すること、
を特徴とする請求項３に記載の音声認識支援装置。
前記音声加工部は、
前記元音声を時間軸方向に伸長若しくは圧縮することによって、又は、前記元音声に対して環境音を付加することによって前記加工音声を作成すること、
を特徴とする請求項４に記載の音声認識支援装置。
音声認識支援装置の音声取得部は、
元音声を取得し、
前記音声認識支援装置の音声加工部は、
前記元音声の波形からある周波数成分を削除する第１の加工パタンを使用して第１の加工音声を作成し、前記元音声の波形から他の周波数成分を削除する第２の加工パタンを使用して第２の加工音声を作成し、
前記音声認識支援装置の音声認識部は、
前記元音声を元テキストに変換するとともに、前記第１の加工音声を第１の加工テキストに変換し、前記第２の加工音声を第２の加工テキストに変換し、
前記音声認識支援装置のあいまい部分抽出部は、
前記元テキストと前記第１の加工テキストとの差分、及び、前記元テキストと前記第２の加工テキストとの差分の和集合をあいまい部分として抽出し、
前記音声認識支援装置のテキスト修正部は、
前記抽出したあいまい部分のうちユーザが選択したものに対応する前記元音声を音声として再生し、
前記音声加工部は、
前記あいまい部分がユーザに選択された回数に基づき、次回以降に使用する前記第１の加工パタンにおいて削除する周波数成分及び前記第２の加工パタンにおいて削除する周波数成分の組合せを、前記ある周波数成分と前記他の周波数成分との複数の無作為の組合せのうちから選択すること、
を特徴とする音声認識支援装置の音声認識支援方法。
音声認識支援装置の音声取得部に対し、
元音声を取得する処理を実行させ、
前記音声認識支援装置の音声加工部に対し、
前記元音声の波形からある周波数成分を削除する第１の加工パタンを使用して第１の加工音声を作成し、前記元音声の波形から他の周波数成分を削除する第２の加工パタンを使用して第２の加工音声を作成する処理を実行させ、
前記音声認識支援装置の音声認識部に対し、
前記元音声を元テキストに変換するとともに、前記第１の加工音声を第１の加工テキストに変換し、前記第２の加工音声を第２の加工テキストに変換する処理を実行させ、
前記音声認識支援装置のあいまい部分抽出部に対し、
前記元テキストと前記第１の加工テキストとの差分、及び、前記元テキストと前記第２の加工テキストとの差分の和集合をあいまい部分として抽出する処理を実行させ、
前記音声認識支援装置のテキスト修正部に対し、
前記抽出したあいまい部分のうちユーザが選択したものに対応する前記元音声を音声として再生する処理を実行させ、
前記音声加工部に対し、
前記あいまい部分がユーザに選択された回数に基づき、次回以降に使用する前記第１の加工パタンにおいて削除する周波数成分及び前記第２の加工パタンにおいて削除する周波数成分の組合せを、前記ある周波数成分と前記他の周波数成分との複数の無作為の組合せのうちから選択する処理を実行させること、
を特徴とする音声認識支援装置を機能させるための音声認識支援プログラム。