JP6696803B2 - 音声処理装置および音声処理方法 - Google Patents
音声処理装置および音声処理方法 Download PDFInfo
- Publication number
- JP6696803B2 JP6696803B2 JP2016051137A JP2016051137A JP6696803B2 JP 6696803 B2 JP6696803 B2 JP 6696803B2 JP 2016051137 A JP2016051137 A JP 2016051137A JP 2016051137 A JP2016051137 A JP 2016051137A JP 6696803 B2 JP6696803 B2 JP 6696803B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- name
- confirmation
- voice
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 84
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000012790 confirmation Methods 0.000 claims description 178
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 238000012217 deletion Methods 0.000 claims description 11
- 230000037430 deletion Effects 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000000034 method Methods 0.000 description 58
- 230000008569 process Effects 0.000 description 50
- 238000004891 communication Methods 0.000 description 24
- 238000003780 insertion Methods 0.000 description 15
- 230000037431 insertion Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
以下、図面を参照しながら本発明の実施形態について詳しく説明する。図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
本実施形態に係る音声処理システム1は、音声処理装置10、収音部21、拡声部22および通信部31を含んで構成される。
通信部31は、音声処理装置10から入力される機器情報が示す通信機器と無線または有線で接続し、当該通信機器との通信を行う。機器情報には、被呼出人が用いる通信機器のIPアドレス、電話番号などが含まれる。通信部31は、例えば、通信モジュールを含んで構成される。
音声認識部102から肯定発話(後述)もしくは発話名の音素列(もしくは直近に入力された候補名の音素列)が入力される場合、確認部104は、発話名(もしくは直近に音素列が入力された候補名)を発話者が正しく意図した被呼出人の名前であると特定する。
なお、発話者が意図した被呼出人の名前を確認するための一連の音声処理の詳細については、後述する。
音素間の誤認識の要素には、大きく次の3種類がある、(1)置換、(2)挿入、(3)削除。(1)置換とは、本来認識されるべき音素が他の音素であるとして認識されることを意味する。(2)挿入とは、本来認識対象にない音素が認識されることを意味する。(3)削除とは、本来認識されるべき音素が認識されないことを意味する。そこで、データ生成部108は、入力音素毎に各出力音素の頻度を示す音素認識データを取得する。音声認識部102は、例えば、多様な既知の音素列が発話された音声を示す音声データについて音声認識処理を行って音素列を生成する。そして、データ生成部108は、既知の音素列それぞれについて音声認識部102が生成した音素列を照合して、既知の音素列を構成する音素毎に認識された音素を特定する。データ生成部108は、照合において、例えば、始終端フリーDPマッチング法などの公知の手法が利用可能である。データ生成部108は、既知の音素列を構成する個々の音素を入力音素として、入力音素毎に各出力音素の頻度を計数する。出力音素は、音声認識部102が生成した音素列、つまり認識された音素列に含まれる個々の音素を意味する。
図3の第3行に示す例では、入力音素/a/について出力音素/a/、/r/、/i/、/o/、/u/と認識される場合のコスト値は、それぞれ0、0.99、0.99、0.97、0.95である。正しい出力音素/a/については、コスト値は0と設定されている。誤認識される頻度が少ない出力音素ほどコスト値が高くなる。
名前特定部103およびデータ生成部108は、音素列間の類似度の指標値の一例として編集距離を算出する。編集距離は、目標の音素列から認識された音素列を得るまでに要する編集毎のコスト値の総和である。編集距離を算出する際、名前特定部103およびデータ生成部108は、音声認識部102から入力された音素列を構成する音素を出力音素として、記憶部110に記憶させたコストデータを参照する。名前特定部103およびデータ生成部108が入力音素として参照する音素は、第1名前リストに記憶された名毎の音素列を構成する音素である。編集は、1個の入力音素から出力音素への置換、1個の入力音素の削除および1個の出力音素の挿入といった、音素列を構成する個々の音素の誤認識、つまり誤認識の要素を意味する。
図4は、音素列”ono”(小野)と音素列”o:no”(大野)との編集距離の計算例(1)を示す図である。音素列”ono”のうち、最初の音素/o/が音素/o:/に置換されて、音素列”o:no”が形成される。音素/o/から音素/o:/への置換に係るコスト値は、0.8である。従って、音素列”ono”と”o:no”の編集距離は、0.8となる。
図5は、音素列”o:ta”(太田)と音素列”o:kawa”(大川)との編集距離の計算例(2)を示す図である。音素列”o:ta”のうち、最初から2番目の音素/t/が音素/k/に置換され、音素列”o:ta”に含まれない音素/w/と/a/が末尾にその順序に追加(挿入)されて、音素列”o:kawa”が形成される。音素/t/から音素/k/への置換に係るコスト値、音素/w/の挿入に係るコスト値、音素/a/の挿入に係るコスト値は、それぞれ0.6、0.85、0.68である。従って、音素列”o:ta”と音素列”o:kawa”との編集距離は、2.13である。
図7は、音素列”o:oka”(大岡)と音素列”oka”(岡)との編集距離の計算例(4)を示す図である。図7に示す例では、図6に示す例とは逆に、音素列”o:oka”から最初の音素/o:/が削除されて音素列”oka”が形成される。音素/o:/の削除に係るコスト値は、1.0である。従って、音素列”o:oka”と音素列”oka”との編集距離は、1.0である。図7に示す誤認識の例は、図6に示す例とは、逆のケースに相当する。図6に示す例での編集距離と、図7に示す例での編集距離との差異は、共通の音素について削除と追加では発生頻度が異なることによる。
図8は、本実施形態に係る第2名前リストの生成処理の例を示すフローチャートである。
(ステップS101)データ生成部108は、記憶部110に予め記憶された第1名前リストから互いに異なる2つの名前それぞれの音素列n1、n2を読み取る。例えば、データ生成部108は、図9に示す第1名前リストから、音素列”o:ta”(太田)と”oka”(岡)を読み取る。その後、ステップS102の処理に進む。
(ステップS102)データ生成部108は、読み取った音素列n1、n2間の編集距離dを計算する。その後、ステップS103の処理に進む。
(ステップS104)データ生成部108は、音素列n2に係る名前が音素列n1に係る名前から誤る可能性が高い名前であると判定する。データ生成部108は、音素列n1に係る名前と、当該音素列n2に係る名前とを対応付けて記憶部110に記憶する。記憶部110に音素列n1に係る名前毎に、音素列n2に係る名前が累積されてなるデータは、第2名前リストを形成する。その後、ステップS105の処理に進む。
図10に示す例では、音素列n1に係る名前が発話名と音素列n2に係る名前が候補名として対応付けて第2名前リストが形成されている。発話名とは、ユーザにより発話される名前について、音声認識部102が取得した音素列に基づいて名前特定部103により特定される名前である。候補名は、発話名に誤認識される可能性がある名前、つまりユーザが意図した名前の候補である。
図10において、候補名1、候補名2とは、複数の候補名を区別するためのインデックスである。図10の第2行には、音素列”ono”を有する発話名「小野」には、音素列1”o:no”を有する候補名1「大野」と音素列2”uno”を有する候補名2「宇野」が対応付けられている。図10に示す例では、各発話名について2名の候補名が対応付けられているが、一般には、発話名に対応付けられた候補名の数は、発話名毎に異なる。複数の候補名がある場合、データ生成部108は、発話名に係る音素列n1と候補名に係る音素列n2の編集距離の昇順にそれらの複数の候補名を配列する。その場合には、データ生成部108は、編集距離の昇順に順次、他の候補名を直ちに選択することができる。
次に、本実施形態に係る音声処理の例について説明する。次の説明では、音声処理装置10が、ユーザが発話する音声から被呼出人の名前を認識し、認識した被呼出人の名前の確認に応用される場合を例にする。図11は、本実施形態に係る音声処理の例を示すフローチャートである。確認部104は、記憶部110に予め記憶された初期メッセージを読み取り、読み取った初期メッセージを音声合成部105に出力する。初期メッセージには、ユーザに被呼出人の名前の発話を促すためのメッセージが含まれる。
(ステップS113)確認部104は、音素列nと一致する音素列を有する発話名を発見したか否かを判定する。発見した場合(ステップS113 YES)、ステップS114の処理に進む。発見していないと判定される場合(ステップS113 NO)、ステップS115の処理に進む。
(ステップS115)確認部104は、後述の確認処理2を行う。その後、ステップS116の処理に進む。
(ステップS116)確認部104は、確認処理1または確認処理2において確認成功と判定する場合(ステップS116 YES)、図11に示す処理を終了する。確認部104は、確認処理1または確認処理2において確認失敗と判定する場合(ステップS116 NO)、ステップS111に戻る。なお、ステップS111に戻る前に、確認部104は、繰り返し要求メッセージを記憶部110から読み取り、読み取った繰り返し要求メッセージを音声合成部105に出力する。繰り返し要求メッセージには、ユーザに被呼出人の名前の再度の発話を促すためのメッセージが含まれる。
(ステップS121)確認部104は、ステップS113において発見された音素列nに対応する候補名に係る音素列n_simを記憶部110に記憶された第2名前リストから読み取る。音素列n_simは、音素列nから誤る可能性が高い音素列である。その後、ステップS122に進む。
(ステップS122)確認部104は、記憶部110から確認メッセージパターンを読み取る。確認部104は、音素列nを確認メッセージパターンに挿入して確認メッセージを生成する。生成される確認メッセージは、音素列nが正しくユーザが意図した名前の音素列であるか否かを確認するための質問を示すメッセージである。確認部104は、生成した確認メッセージを音声合成部105に出力する。その後、ステップS123の処理に進む。
(ステップS127)確認部104は、直近の処理対象の名前の音素列についてユーザが意図した名前の音素列であることについて確認失敗と判定する。その後、ステップS116(図11)の処理に進む。
(ステップS131)確認部104は、ステップS122と同様の処理を行う。その後、ステップS132に進む。
(ステップS132)確認部104には、確認メッセージの出力後、所定時間(例えば、5〜10秒)内に音声認識部102から発話内容を示す音素列が入力される。入力された音素列が肯定発話の音素列または音素列nと同一である場合(ステップS123 肯定発話またはn)、ステップS133の処理に進む。入力された音素列がそれ以外の音素列である場合(ステップS132 それ以外)、ステップS134の処理に進む。
(ステップS134)確認部104は、直近の処理対象の名前の音素列nについてユーザが意図した名前の音素列であることについて確認失敗と判定する。その後、ステップS116(図11)の処理に進む。
ところで、図12のステップS123、S125、図13のステップS132において、確認部104が、確認メッセージの出力から所定時間(例えば、5〜10秒)を超えて音声認識部102から音素列が入力されない場合がある。その場合において、確認部104は、それぞれステップS126、S126、S133の処理に進み、確認成功として判定してもよい。これにより、確認メッセージに対してユーザが発話しない場合でも、認識結果が容認されたものとして扱われる。その場合においても、認識結果となる名前の確認メッセージの再生と、確認メッセージに対するユーザによる訂正発話の繰り返しが回避される。
次に、音声処理装置10が対話処理に用いる各種のメッセージならびにメッセージパターンについて説明する。対話処理には、図11に示す音声処理、図12、図13に示す確認処理が含まれる。記憶部110には、予め各種のメッセージならびにメッセージパターンを予め記憶しておく。以下、メッセージとメッセージパターンをメッセージ等と呼ぶ。
図14は、本実施形態に係るメッセージ等の例を示す図である。
メッセージ等は、その発音を示す音素列の情報を示すデータである。メッセージは、その発音を示す音素列区間の情報を示すデータである。メッセージパターンは、その発音を示す音素列区間の情報と挿入区間の情報とを含んで構成されるデータである。挿入区間は、他の語句の音素列が挿入可能な区間である。挿入区間は、図14において、<…>で囲まれる区間である。音素列区間と挿入区間に挿入される音素列とを統合してなる一連の音素列は、1つのメッセージの発音を示す。
確認メッセージパターンは、直前(例えば、その時点から5〜15秒以内)になされた発話から認識された音素列を発話者であるユーザが意図した内容であるか否かの回答を促すためのメッセージの生成に用いられるメッセージパターンである。図14の第3行に示す例では、確認メッセージパターンは、”<…> desuka?”(<…>ですか?)である。<…>は、認識された音素列が挿入される挿入区間である。
繰り返し要求メッセージは、発話者であるユーザに被呼出人の名前の再度の発話を促すためのメッセージである。図14の第4行に示す例では、繰り返し要求メッセージは、”mo:ichido osshattekudasai”(もう一度おっしゃって下さい)である。
次に、本実施形態の変形例について説明する。一変形例では、データ生成部108は、図12、図13に示す確認処理に基づいて音素認識データを更新してもよい。データ生成部108は、ステップS116、S126において確認に成功した音素列を構成する各音素は、正しく認識された音素であると判定する。データ生成部108は、ステップS116、S126において確認成功と判定される前に、ステップS127において確認に失敗した音素列と、確認成功と判定された音素列とを照合する。データ生成部108は、確認成功と判定された音素列と確認失敗と判定された音素列の間で共通する音素を正しく認識された音素であると判定する。データ生成部108は、確認成功と判定された音素列と確認失敗と判定された音素列の間で異なる音素のうち、確認失敗と判定された音素列に含まれる音素を入力音素であると判定し、確認成功と判定された音素列に含まれる音素が正しく認識されなかった出力音素であると判定する。これにより、正しく認識されなかった入力音素がその入力音素とは異なる出力音素に誤認識されたことが判定される。そして、データ生成部108は、正しく認識された音素の出現回数を、その音素を入力音素として、その音素が出力音素である回数に加算することにより累積する。データ生成部108は、正しく認識されなかった入力音素について誤認識された出力音素の出現回数を、その入力音素についてその出力音素の回数に加算する。誤認識の要素である追加、削除については、データ生成部108は、それぞれ入力音素、出力音素が存在しないものとして、追加される出力音素の出現回数、削除される入力音素の出現回数を累積する。よって、入力音素毎に認識された出力音素の回数を示す音素認識データが更新される。
本変形例に係る音声処理システム2は、音声処理装置10、収音部21、拡声部22および通信部31に、さらに動作制御部32、動作機構部33および動作モデル記憶部34を含んだ単一のロボットシステムとして構成される。
この構成により、第2名前リストを参照して認識された名前と発音が類似する名前が選択される。ユーザにより認識された名前が否定された場合であっても、選択された名前が、ユーザが意図した名前の候補として提示される。そのため、ユーザが意図した名前が早く特定される可能性が高くなる。また、認識結果の確認音声の再生と、確認結果に対する訂正発話の繰り返しが回避される。そのため、ユーザが意図した名前を円滑に特定される。
この構成により、発話された名前が第1の名前であると誤認識される場合でも、第2の名前が特定される名前の候補として選択される。そのため、ユーザが意図した名前が特定される可能性が高くなる。
この構成により、第2の名前として第1の名前の発音と定量的に類似する発音の名前が特定される名前の候補として選択される。そのため、誤認識される名前とは発音が類似する名前が、ユーザが意図した名前として特定される可能性が高くなる。
この構成により、第1の名前に対応する第2の名前が複数存在する場合、第1の名前と発音が類似する第2の名前ほど優先して選択される。誤認識される名前と発音が類似する名前ほど優先して提示されるので、ユーザが意図した名前が早期に特定される可能性が高くなる。
この構成により、誤認識による音素列の変更が単純であるほど小さい編集距離が算出される。そのため、誤認識される名前と発音が類似する名前が定量的に定められる。
この構成により、第1の名前の音素列に誤認識される可能性が高い音素列に係る名前が第2の名前として選択される。そのため、第2の名前としてユーザが意図した名前が特定される可能性が高くなる。
また、上述した実施形態では、名前が主に自然人の姓である場合を例にしたが、これには限られない。姓に代えて名が用いられてもよいし、氏名が用いられてもよい。また、名前は、必ずしも自然人の名前に限られず、組織名、部門名、もしくはそれらの通称が用いられてもよい。また、名前は、正式名称、本名に限られず、通称、愛称、略称、筆名などの変名でもよい。また、被呼出人は、特定の自然人に限られず、組織、部門などの構成員であってもよい。
また、音声処理装置10は、収音部21、拡声部22および通信部31のいずれか1個、いずれか2個または全てを一体化して構成されてもよい。
また、上述した実施形態における音声処理装置10の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置10の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
Claims (3)
- 音声を認識して音素列を生成する音声認識部と、
第1の名前の音素列を示す第1名前リストと、前記第1の名前のうち所定の第1の名前の音素列に当該第1の名前の音素列に誤認識される可能性が所定の可能性よりも高い第2の名前の音素列とが対応付けてなる第2名前リストとを記憶する記憶部と、
前記第1の名前の音素列と前記音声認識部が生成した音素列との類似度に基づいて前記音声が示す名前を特定する名前特定部と、
メッセージの音声を合成する音声合成部と、
前記名前特定部が特定した名前が、正しい名前であるか否か回答を促す確認メッセージの音声を前記音声合成部に合成させる確認部と、
データ生成部と、を備え
前記確認部は、
前記特定した名前が、正しい名前ではないと回答されるとき、前記第2名前リストを参照して前記特定した名前の音素列に対応し、前記第1の名前の音素列との距離が小さい第2の名前の音素列ほど優先して選択し、
前記選択した第2の名前について前記確認メッセージの音声を前記音声合成部に合成させ、
前記第2の名前の音素列は、前記第1の名前の音素列の誤認識の要素として、前記第1の名前の音素列をなす一部の音素の他の音素への置換、音素の挿入ならびに前記一部の音素の削除の少なくとも一回によってなり、
前記距離は、前記誤認識の要素に係るコストを累積して算出され、
前記データ生成部は、
前記特定した名前が、正しい名前であると回答された名前の音素列である確認成功音素列を構成する各音素が正しく認識された音素と判定し、
正しい名前であると回答される前に、正しい名前であると回答されなかった音素列である確認失敗音素列と前記確認成功音素列とを照合し、前記確認失敗音素列から正しく認識された音素と前記誤認識の要素を判定し、
前記正しく認識された音素と前記誤認識の要素の出現回数に基づいて、確認失敗音素列と確認成功音素列にそれぞれ含まれる音素および削除される音素である入力音素の出現回数と、入力音素ごとに認識された音素および追加された音素である出力音素の出現回数を示す音素認識データを更新し、
前記誤認識の要素の頻度が高いほど低い値となるように、入力音素と出力音素のセットごとの出現回数に基づいて前記コストを更新する
音声処理装置。 - 前記第2名前リストにおいて前記第1の名前の音素列と対応付けられた第2の名前の音素列と当該第1の名前の音素列との距離が、所定の距離よりも小さい
請求項1に記載の音声処理装置。 - 第1の名前の音素列を示す第1名前リストと、前記第1の名前のうち所定の第1の名前の音素列に当該第1の名前の音素列に誤認識される可能性が所定の可能性よりも高い第2の名前の音素列とが対応付けてなる第2名前リストとを記憶する記憶部を備える音声処理装置における音声処理方法において、
前記音声処理装置は、
音声を認識して音素列を生成する音声認識ステップと、
前記第1の名前の音素列と前記音声認識ステップにおいて生成された音素列との類似度に基づいて前記音声が示す名前を特定する名前特定ステップと、
前記名前特定ステップにおいて特定された名前が、正しい名前であるか否か回答を促す確認メッセージの音声を音声合成部に合成させる確認ステップと、
データ生成ステップと、を有し、
前記確認ステップは、
前記特定された名前が、正しい名前ではないと回答されるとき、前記第2名前リストを参照して前記特定された名前の音素列に対応し、前記第1の名前の音素列との距離が小さい第2の名前の音素列ほど優先して選択するステップと、
前記選択した第2の名前について前記確認メッセージの音声を前記音声合成部に合成させるステップと、を有し、
前記第2の名前の音素列は、前記第1の名前の音素列の誤認識の要素として、前記第1の名前の音素列をなす一部の音素の他の音素への置換、音素の挿入ならびに前記一部の音素の削除の少なくとも一回によってなり、
前記距離は、前記誤認識の要素に係るコストを累積して算出され、
前記データ生成ステップは、
前記特定した名前が、正しい名前であると回答された名前の音素列である確認成功音素列を構成する各音素が正しく認識された音素と判定するステップと、
正しい名前であると回答される前に、正しい名前であると回答されなかった音素列である確認失敗音素列と前記確認成功音素列とを照合し、前記確認失敗音素列から正しく認識された音素と前記誤認識の要素を判定するステップと、
前記正しく認識された音素と前記誤認識の要素の出現回数に基づいて、確認失敗音素列と確認成功音素列にそれぞれ含まれる音素および削除される音素である入力音素の出現回数と、入力音素ごとに認識された音素および追加された音素である出力音素の出現回数を示す音素認識データを更新するステップと、
前記誤認識の要素の頻度が高いほど低い値となるように、入力音素と出力音素のセットごとの出現回数に基づいて前記コストを更新するステップと、
を有する音声処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016051137A JP6696803B2 (ja) | 2016-03-15 | 2016-03-15 | 音声処理装置および音声処理方法 |
US15/444,553 US20170270923A1 (en) | 2016-03-15 | 2017-02-28 | Voice processing device and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016051137A JP6696803B2 (ja) | 2016-03-15 | 2016-03-15 | 音声処理装置および音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017167270A JP2017167270A (ja) | 2017-09-21 |
JP6696803B2 true JP6696803B2 (ja) | 2020-05-20 |
Family
ID=59855844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016051137A Active JP6696803B2 (ja) | 2016-03-15 | 2016-03-15 | 音声処理装置および音声処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170270923A1 (ja) |
JP (1) | JP6696803B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102421745B1 (ko) * | 2017-08-22 | 2022-07-19 | 삼성전자주식회사 | Tts 모델을 생성하는 시스템 및 전자 장치 |
JP6829406B1 (ja) * | 2019-08-22 | 2021-02-10 | 富士通クライアントコンピューティング株式会社 | 情報処理装置およびプログラム |
JP2021097386A (ja) * | 2019-12-19 | 2021-06-24 | Necプラットフォームズ株式会社 | 発信制御システム、発信制御方法及び発信制御プログラム |
JP7485030B2 (ja) * | 2020-06-11 | 2024-05-16 | 日本電気株式会社 | 検索装置、検索方法、およびプログラム |
CN113312070B (zh) * | 2021-06-03 | 2023-02-24 | 海信集团控股股份有限公司 | 车载应用的应用名称更新方法及车辆 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09114493A (ja) * | 1995-10-19 | 1997-05-02 | N T T Data Tsushin Kk | 対話制御装置 |
US6304844B1 (en) * | 2000-03-30 | 2001-10-16 | Verbaltek, Inc. | Spelling speech recognition apparatus and method for communications |
US20030078777A1 (en) * | 2001-08-22 | 2003-04-24 | Shyue-Chin Shiau | Speech recognition system for mobile Internet/Intranet communication |
JP4336282B2 (ja) * | 2004-09-15 | 2009-09-30 | 日本電信電話株式会社 | 音声認識性能推定方法、認識障害単語抽出方法、音声認識性能推定装置、認識障害単語抽出装置、音声認識性能推定プログラム、認識障害単語抽出プログラムおよび記録媒体 |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
US8010343B2 (en) * | 2005-12-15 | 2011-08-30 | Nuance Communications, Inc. | Disambiguation systems and methods for use in generating grammars |
US7991615B2 (en) * | 2007-12-07 | 2011-08-02 | Microsoft Corporation | Grapheme-to-phoneme conversion using acoustic data |
US8762153B2 (en) * | 2008-08-18 | 2014-06-24 | At&T Intellectual Property I, L.P. | System and method for improving name dialer performance |
US8108214B2 (en) * | 2008-11-19 | 2012-01-31 | Robert Bosch Gmbh | System and method for recognizing proper names in dialog systems |
US9361879B2 (en) * | 2009-02-24 | 2016-06-07 | Nexidia Inc. | Word spotting false alarm phrases |
US20150106089A1 (en) * | 2010-12-30 | 2015-04-16 | Evan H. Parker | Name Based Initiation of Speech Recognition |
US8954329B2 (en) * | 2011-05-23 | 2015-02-10 | Nuance Communications, Inc. | Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information |
US9176936B2 (en) * | 2012-09-28 | 2015-11-03 | International Business Machines Corporation | Transliteration pair matching |
US9710463B2 (en) * | 2012-12-06 | 2017-07-18 | Raytheon Bbn Technologies Corp. | Active error detection and resolution for linguistic translation |
WO2014197334A2 (en) * | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9443507B2 (en) * | 2013-07-15 | 2016-09-13 | GM Global Technology Operations LLC | System and method for controlling a speech recognition system |
JP2015175983A (ja) * | 2014-03-14 | 2015-10-05 | キヤノン株式会社 | 音声認識装置、音声認識方法及びプログラム |
JP6475426B2 (ja) * | 2014-06-05 | 2019-02-27 | クラリオン株式会社 | 意図推定装置、及び、モデルの学習方法 |
US9514743B2 (en) * | 2014-08-29 | 2016-12-06 | Google Inc. | Query rewrite corrections |
-
2016
- 2016-03-15 JP JP2016051137A patent/JP6696803B2/ja active Active
-
2017
- 2017-02-28 US US15/444,553 patent/US20170270923A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2017167270A (ja) | 2017-09-21 |
US20170270923A1 (en) | 2017-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3114679B1 (en) | Predicting pronunciation in speech recognition | |
US9640175B2 (en) | Pronunciation learning from user correction | |
JP6696803B2 (ja) | 音声処理装置および音声処理方法 | |
CN1655235B (zh) | 基于话音特征自动标识电话呼叫者 | |
JP4542974B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
EP3832643A1 (en) | Dynamic wakewords for speech-enabled devices | |
JP3284832B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
KR102097710B1 (ko) | 대화 분리 장치 및 이에서의 대화 분리 방법 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
CN110706714B (zh) | 说话者模型制作系统 | |
JP2002511154A (ja) | ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
JP2008293019A (ja) | 言語理解装置 | |
JP2014063088A (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
WO2006093092A1 (ja) | 会話システムおよび会話ソフトウェア | |
JP2004325635A (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
JP2018031985A (ja) | 音声認識補完システム | |
US10854196B1 (en) | Functional prerequisites and acknowledgments | |
JP4296290B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2005283646A (ja) | 音声認識率推定装置 | |
JP2020091435A (ja) | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 | |
JP6991409B2 (ja) | 情報処理装置、プログラム及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181005 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191003 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200423 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6696803 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |