JP2010266716A - Voice recognition device, and method and program of the same - Google Patents
Voice recognition device, and method and program of the same Download PDFInfo
- Publication number
- JP2010266716A JP2010266716A JP2009118361A JP2009118361A JP2010266716A JP 2010266716 A JP2010266716 A JP 2010266716A JP 2009118361 A JP2009118361 A JP 2009118361A JP 2009118361 A JP2009118361 A JP 2009118361A JP 2010266716 A JP2010266716 A JP 2010266716A
- Authority
- JP
- Japan
- Prior art keywords
- word
- conversion
- storage unit
- difficulty level
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音響モデル、言語モデルを用いて、音声情報の内容を認識し、その内容をテキストデータとして求める音声認識装置、音声認識方法及び音声認識プログラムに関する。 The present invention relates to a speech recognition apparatus, a speech recognition method, and a speech recognition program that recognize the content of speech information using an acoustic model and a language model and obtain the content as text data.
音響モデル及び言語モデルを用いて音声認識を行う装置が従来技術として知られている。図1は、従来の音声認識装置20の構成例を示す。音声認識装置20は、音声入力部21を介して、音声を入力される。音声分析部23において入力音声を分析し、探索部25は、音響モデル記憶部27、言語モデル記憶部31を用いてどのような単語の系列が出現しているのかを推定し、推定の結果、最も確率が高い単語系列を音声認識結果として出力する。このとき、言語モデル記憶部31を用いた単語系列の推定では、認識辞書記憶部29に登録されている単語を並べて単語系列とする。
An apparatus for performing speech recognition using an acoustic model and a language model is known as a conventional technique. FIG. 1 shows a configuration example of a conventional speech recognition apparatus 20. The voice recognition device 20 receives voice through the
なお、多岐の認識文言に対して同一の出力文字をリストにおいて対応付けることで、多岐の認識文言を同一の出力文字として視認可能とする方法として、特許文献1が知られている。
従来技術において、発話した文章に相当する全ての単語が認識辞書記憶部に登録されており、音声認識が理想的に動作する場合、難解な単語(例えば「遺憾の意」)を発声すれば認識結果も難解なテキストデータとなる。従来の音声認識の目的は、「発話した内容を、その通り正確にテキスト化すること」であるため、認識結果が難解なテキストデータであっても問題はなかった。しかし、「発話した内容を、利用者が理解しやすいようにテキスト化すること」を目的とした場合には、入力音声を利用者が理解しやすい認識結果に変換して出力するという課題がある。 In the prior art, when all words corresponding to the spoken sentence are registered in the recognition dictionary storage unit and speech recognition works ideally, it is recognized if a difficult word (for example, “regret”) is spoken. The result is also difficult text data. Since the purpose of the conventional speech recognition is “to make the uttered content exactly as it is”, there is no problem even if the recognition result is difficult text data. However, when the purpose is to "text the spoken content so that the user can easily understand", there is a problem that the input speech is converted into a recognition result that is easy for the user to understand and output. .
上記の課題を解決するために、本発明の音声認識技術は、音響モデル記憶部には各音素の音響的な特徴である音素情報が予め記憶され、認識辞書記憶部には単語と、この単語の読みと、この単語の難易度と、この単語と同じ意味を持ち異なる難易度の単語とを対応付けて予め記憶され、言語モデル記憶部には言語的な特徴が予め記憶されているものとし、音声情報を用いてこの音声情報の音響的な特徴を求め、音声分析部で求めたこの音声情報の音響的な特徴を用いて音響モデル記憶部から類似する音素情報を探索し、探索した1以上の音素情報を用いて認識辞書記憶部から単語を探索し、探索した1以上の単語と言語モデル記憶部の言語的な特徴を用いて、変換前認識結果を推定し、認識辞書記憶部を参照して、変換前認識結果の単語と同じ意味を持つ単語の中から目標とする難易度に最も近い単語を選択する。 In order to solve the above problem, in the speech recognition technology of the present invention, phoneme information that is an acoustic feature of each phoneme is stored in advance in the acoustic model storage unit, and a word and the word are stored in the recognition dictionary storage unit. , The difficulty level of this word, and a word having the same meaning as this word and having a different difficulty level are stored in advance, and language features are stored in advance in the language model storage unit. The acoustic feature of the speech information is obtained using speech information, and similar phoneme information is searched from the acoustic model storage unit using the acoustic feature of the speech information obtained by the speech analysis unit. The phoneme information is used to search for a word from the recognition dictionary storage unit, and the one or more searched words and the linguistic features of the language model storage unit are used to estimate the recognition result before conversion, and the recognition dictionary storage unit is Refer to the same word as the recognition result before conversion. It means to select the closest word to the degree of difficulty of the target from within a word with.
本発明は、変換部を設けることによって、利用者が理解しやすい認識結果を求めることができるという効果を奏する。 The present invention provides an effect that it is possible to obtain a recognition result that is easy for the user to understand by providing the conversion unit.
以下、本発明の実施の形態について、詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail.
<音声認識装置100>
図2は音声認識装置100の構成例を、図3は音声認識装置100の処理フロー例を示す。図2及び図3を用いて、実施例1に係る音声認識装置100を説明する。音声認識装置100は、音声情報の内容を認識し、その内容をテキストデータとして求める。音声認識装置100は、例えば、音声入力部21、音声分析部23、探索部25、音響モデル記憶部27、認識辞書記憶部129を備える言語モデル131、変換部110、記憶部103及び制御部105を有する。なお、求めたテキストデータは、図示しない出力装置(例えば、ディスプレイやプリンター等)や外部記録媒体等に出力してもよいし、後述する記憶部103に記憶してもよい。
<
FIG. 2 shows a configuration example of the
<記憶部103及び制御部105>
記憶部103は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部103に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。
制御部105は、各処理を制御する。
<
The
The
<音声入力部21>
音声入力部21は、例えば、マイクロフォン及び入力インターフェース等であり、音声を電気的信号に変換し、さらに、A/D変換器等を備え、デジタルデータに変換する。なお、本明細書において、音声、電気的信号に変換された音声及びA/D変換器により変換された音声デジタルデータを併せて音声情報という。音声認識装置100は、音声入力部21を介して音声を入力される(s21)。但し、外部記録媒体や記憶部103に記憶されている音声情報の内容を認識する場合には、音声入力部21を設けなくともよい。
<
The
<音声分析部23>
音声分析部23は、音声情報を用いて、この音声情報の音響的な特徴を求める(s23)。例えば、音響的な特徴は、MFCC(mel-frequency cepstral coefficient)等である。
<
The
<音響モデル記憶部27>
音響モデル記憶部27は、各音素の音響的な特徴である音素情報が予め記憶される。例えば、音響モデル記憶部27には、標準パターン(標準モデル)のMFCC等が予め記憶されている。
<Acoustic
The acoustic
<認識辞書記憶部129>
図4は、認識辞書記憶部129に記憶されるデータ例を示す。認識辞書記憶部129は、単語と、その単語の読みと、その単語の難易度と、その単語と同じ意味を持ち異なる難易度の単語とを対応付けて予め記憶される。また、例えば、認識辞書記憶部129は、単語と、変換後にこの単語を表示するか否かを決定する表示フラグを対応付けて、予め記憶されてもよい。例えば、認識辞書記憶部129に記憶されるデータは、使用に先立って、製造者や利用者等によって予め登録される。
<Recognition
FIG. 4 shows an example of data stored in the recognition
<言語モデル記憶部131>
言語モデル記憶部131は、言語的な特徴が予め記憶される。例えば、言語モデル記憶部は、認識辞書記憶部129を備え、さらに、各単語列の生起確率等が予め記憶されている。
<Language
The language
<探索部25>
探索部25は、音声分析部23で求めた音声情報の音響的な特徴を用いて音響モデル記憶部から類似する音素情報を探索する。さらに、探索部25は、探索した1以上の音素情報を用いて認識辞書記憶部129から単語を探索する。最後に、探索部25は、探索した1以上の単語と言語モデル記憶部131の言語的な特徴を用いて、変換前認識結果を推定する(s23)。
<
The
例えば、探索部25は、音声分析部23で求めた音響的な特徴(MFCC)と音響モデル記憶部27に記憶される標準パターンのMFCCからユークリッド距離を算出し、類似する音素情報を探索する。さらに、探索した音素情報から、隠れマルコフモデルを用いて読みを推定し、対応する単語を認識辞書記憶部129から探索する。探索した単語からなる単語列と言語モデル記憶部131に記憶されている単語列の生起確率から確率の高い単語列を探索し、変換前認識結果を推定する。
For example, the
なお、一般的に音声認識とは、以下の式の左辺P(w^|y)を求めることであり、wは推定しようとするテキストデータを、yは音声分析部23で求める時系列の音響的な特徴を、P(y|w)は音響モデル記憶部27の持つ情報を、P(w)は言語モデル記憶部131の持つ情報を表す(参考文献:中川聖一著、「確率モデルによる音声認識」、コロナ社、昭和63年7月1日発行、p.33〜p.34)。
Note that speech recognition generally refers to obtaining the left side P (w ^ | y) of the following equation, where w is the text data to be estimated and y is the time-series sound obtained by the
但し、本発明は、本実施例に限定されるものではない。例えば、音声入力部21、音声分析部23、探索部25、音響モデル記憶部27の処理内容は、他の従来技術を用いて、変換前認識結果を算出してもよい。また、認識辞書記憶部129や言語モデル記憶部131には、上述の情報以外に従来技術で用いた情報(例えば、各単語のクラス等)を記憶して使用してもよい。
However, the present invention is not limited to this embodiment. For example, the processing contents of the
<変換部110>
図5は変換部110の処理フロー例を示す。変換部110は、認識辞書記憶部129を参照して、変換前認識結果の単語と同じ意味を持つ単語の中から目標とする難易度に最も近い単語を選択する(s110)。なお、同じ意味を持つ単語とは、その単語自身及び認識辞書記憶129において対応付けられた単語である。
<Conversion unit 110>
FIG. 5 shows a processing flow example of the conversion unit 110. The conversion unit 110 refers to the recognition
例えば、変換部110は、変換後の目標とする難易度を予め選択され、認識辞書記憶部129を参照して、変換前認識結果の単語と同じ意味を持ち選択された難易度に最も近い単語を選択する(s116)。また、変換部110は、認識辞書記憶部129を参照して、変換前認識結果の単語を変換後に表示するか否かを判定し(s115)、表示フラグが表示することを意味する場合には、この単語を同じ意味を持つ単語の中から目標とする難易度に最も近い単語を選択し(s116)、表示フラグが表示しないことを意味する場合には、変換後認識結果にこの単語と同じ意味を持つ単語を表示しないように変換する(s117)。
For example, the conversion unit 110 selects a target difficulty level after conversion in advance, refers to the recognition
<処理フロー例>
例えば、利用者は、予め図示していない入力装置(例えば、マウスやキーボード等)を用いて、難易度選択情報、表示選択情報等である設定情報を変換部110へ送信する。なお、難易度選択情報とは、変換後認識結果の目標とする単語の難易度を決定する情報であり、例えば、難易度1と設定される。表示選択情報とは、変換後認識結果に対応する単語を表示するか否かを決定する情報であり、例えば、非表示可または非表示不可と設定される。但し、音声認識装置100が、目標とする難易度が予め決まっている場合(例えば「難易度2」)や、変換後認識結果に同じ意味を持つ単語を表示するか否かが予め決まっている場合(例えば「非表示不可」)には、難易度選択情報及び表示選択情報を入力しなくともよい。
<Example of processing flow>
For example, the user transmits setting information such as difficulty level selection information and display selection information to the conversion unit 110 by using an input device (for example, a mouse, a keyboard, etc.) not shown in advance. The difficulty level selection information is information that determines the difficulty level of the word that is the target of the recognition result after conversion. For example, the difficulty level selection information is set to 1. The display selection information is information for determining whether or not to display a word corresponding to the recognition result after conversion, and is set to be non-displayable or non-displayable, for example. However, when the target difficulty level of the
変換部110は、変換前認識結果を入力され、変換後認識結果を出力する。変換部110は、探索部25から入力される変換前認識結果をバッファ等に記憶し、そこから単語を一つ取り出す(s112)。表示選択情報が、非表示可と設定されている場合には、認識辞書129を参照して、取り出した単語の表示フラグが非表示可能か否か判定し(s115)、表示フラグが非表示不可の場合には、この単語と同じ意味を持つ単語の中から目標とする難易度に最も近い単語を選択する(s116)。変換部110は、s116において、同じ意味を持つ単語として、その単語自身が選択された場合には、特に変換処理を行わず、出力用のバッファ等にその単語を記録し、異なる難易度の単語が選択された場合には、その単語を選択された単語に変換し、出力用のバッファ等に変換後の単語を記録する。表示フラグが非表示可の場合には、変換後認識結果にこの単語を表示しないように変換する(s117)。例えば、この単語を削除する。なお、表示選択情報が非表示不可と設定されている場合には、表示フラグの判定(s115)や非表示変換(s117)を行わず、各単語について変換処理(s116)を行う。
The conversion unit 110 receives the recognition result before conversion and outputs the recognition result after conversion. The conversion unit 110 stores the recognition result before conversion input from the
変換処理を行った単語は、図示しない出力用のバッファ等に記憶される。変換前認識結果の最後の単語か否かを判定し(s118)、最後の単語ではない場合には、変換前認識結果から次の単語を一つ取り出し、上記処理を繰り返す。最後の単語の場合には、変換後認識結果として、上記変換を行った認識結果を出力用のバッファ等から取り出し出力する(s119)。但し、変換後認識結果を変換毎に出力する構成としてもよい。その場合には、認識結果を出力した後に(s119)、最後の単語か否かを判定する(s118)。 The word subjected to the conversion process is stored in an output buffer or the like (not shown). It is determined whether or not it is the last word of the recognition result before conversion (s118). If it is not the last word, one next word is extracted from the recognition result before conversion and the above process is repeated. In the case of the last word, as a recognition result after conversion, the recognition result obtained by the above conversion is extracted from an output buffer or the like and output (s119). However, the configuration may be such that the recognition result after conversion is output for each conversion. In this case, after outputting the recognition result (s119), it is determined whether or not it is the last word (s118).
<具体例>
図6(A)は難易度3の単語を含む変換前認識結果例を、(B)は(A)を変換前認識結果とし難易度選択情報として難易度2を設定した場合の変換後認識結果例を、(C)は(A)を変換前認識結果とし難易度選択情報として難易度1を設定した場合の変換後認識結果例を、(D)は(A)を変換前認識結果とし難易度選択情報として難易度1を設定し、表示選択情報として非表示可能として設定した場合の変換後認識結果例を、(E)は難易度1の単語を含む変換前認識結果例を、(F)は(E)を変換前認識結果とし難易度選択情報として難易度2を設定した場合の変換後認識結果例を示す。なお、(B)、(C)、(F)の変換処理において、表示選択情報は非表示不可として設定してあるものとする。また、(A)において、各単語の下部に難易度を説明を容易にするために表示しているが、実際の使用に際しては表示されなくともよい。また、変換される単語の下線も同様に表示されなくともよい。
<Specific example>
FIG. 6A shows an example of a recognition result before conversion including a word with
例えば、図4のデータ例のように、認識辞書記憶部129に情報が予め登録され、難易度選択情報が難易度1の場合には、変換前認識結果として「今日」、「私」等の難易度2が入力されると、それぞれ、難易度1の「きょう」、「わたし」に変換して出力する。難易度選択情報が難易度2の場合に、変換前認識結果として「我輩」、「痛恨の極み」等の難易度3が入力されると、それぞれ、難易度2の「私」、「非常に残念」に変換して出力する。このようにして、例えば、図6(A)の変換前認識結果が変換部110に入力された場合には、難易度2が設定されていれば図6(B)の変換後認識結果を出力し、難易度1が設定されていれば図6(C)の変換後認識結果を出力する。なお、図6(A)において、「えーと」は難易度1である。しかし、図4には難易度の異なる同じ意味を持つ単語が存在しないため、選択された難易度2に最も近い同じ意味を持つ単語は単語「えーと」自身となり、変換処理を行わず、出力用のバッファ等に出力される。また、図6(A)において、「遺憾の意」は難易度3である。難易度選択情報の示す難易度が1だった場合、図4には、「遺憾の意」に対応する難易度1の単語が登録されていないため、難易度2の対応する単語「申し訳ない気持ち」が選択された難易度1に最も近い同じ意味を持つ単語となる。
For example, as shown in the data example of FIG. 4, when information is registered in advance in the recognition
また、どのような単語でも、全て発話した単語を表示すると、読みづらくなってしまうという場合がある。例えば、「非常に」等の程度を表す副詞は記述しなくても大意は通じる単語である。「えーと」、「あのー」等の曖昧語や「とても」「少しだけ」等の程度を表す副詞を変換後表示結果に表示しないほうが理解しやすい認識結果となる場合もある。本実施例では、予め認識辞書記憶部129の各単語に対し「表示フラグ」を登録し、表示フラグが表示しないことを意味する場合(非表示可)には、変換後認識結果に単語と同じ意味を持つ単語を表示しないように変換する。この場合出力用のバッファ等には何も出力しなくともよい。図6(A)の変換前認識結果が変換部10に入力され、難易度選択情報として難易度1が、表示選択情報として非表示が選択された場合には、図6(D)の変換後認識結果を出力する。この場合には、単語「えーと」を表示しないように変換している。
In addition, it may be difficult to read any word when all spoken words are displayed. For example, an adverb that indicates the degree of “very” or the like is a word that can be understood even if it is not described. In some cases, it may be easier to understand the recognition result if it is not displayed in the display result after conversion of an ambiguous word such as “um” or “an” or an adverb indicating the degree of “very” or “just”. In this embodiment, when a “display flag” is registered in advance for each word in the recognition
難易度選択情報が難易度2の場合には、変換前認識結果として「あんよ」、「なっちゃって」、「ママ」等の難易度1が入力されると、それぞれ、難易度2の「足」、「なって」、「お母さん」に変換して出力することができる。例えば、図6(E)が入力され、難易度選択情報として易度2が選択された場合には、図6(F)の変換後認識結果を出力する。このような構成とすることによって、低い難易度の幼児言葉等を高い難易度の変換前認識結果に変換することができ、利用者が理解しやすい認識結果を求めることができる。
When the difficulty level selection information is
また、一つの発話内容(変換前認識結果)の中に、同じ意味を持つ単語「我輩」、「私」が含まれる場合には、同一の単語に変換し、利用者が理解しやす認識結果を求めることができる。 In addition, when the words “I” and “I” with the same meaning are included in one utterance content (pre-conversion recognition result), it is converted into the same word and the recognition result is easy for the user to understand. Can be requested.
なお、本実施例では、難易度を1から3の3段階としているが、難易度は3段階である必要はなく、2段階、または、4段階以上であってもよい。 In the present embodiment, the difficulty level is set to three levels from 1 to 3. However, the difficulty level does not have to be three levels, and may be two levels or four or more levels.
また、変換部110は探索部25の一部であってもよい。この場合、探索部25において、変換前認識結果の単語が推定される毎に、変換処理を行う。その場合、図5の変換前認識結果から単語を一つ取り出す処理(s112)、最後の単語か否かの判定(s118)は行わなくてもよい。
The conversion unit 110 may be a part of the
<効果>
このような構成によって、利用者が理解しやすい認識結果を求めることができるという効果を奏する。認識結果のテキストデータ内の各単語の難易度を統一して表現することにより、利用者が理解しやすくなる。例えば、子供や日本語の苦手な外国人等には、難易度を下げ、平易な表現で認識結果を提示することができる。逆に、発話者に対して利用者が高い言語能力を有する場合には、難易度の高い認識結果を提示することもできる。変換部110に難易度選択情報を入力することによって、利用者の理解度に応じて異なる難易度のテキストデータを提示することができる。認識辞書記憶部129に登録されるデータに表示フラグを設け、変換部110に表示選択情報を入力することによって、必要に応じて重要度の低い単語を非表示とすることができ、テキストデータをより分かりやすく簡潔に提示することができる。また、特定の用語(単語)を使用することを定められた議事録の作成等においては、用語を統一して提示することもできる。
<Effect>
With such a configuration, it is possible to obtain a recognition result that is easy for the user to understand. By unifying the difficulty level of each word in the text data of the recognition result, the user can easily understand. For example, a child or a foreigner who is not good at Japanese can reduce the difficulty level and present the recognition result in plain expression. Conversely, when the user has a high language ability with respect to the speaker, a recognition result having a high difficulty level can be presented. By inputting the difficulty level selection information to the conversion unit 110, text data with different difficulty levels can be presented according to the user's understanding level. By providing a display flag for data registered in the recognition
<ハードウェア構成>
図7は、本実施例における音声認識装置100のハードウェア構成を例示したブロック図である。図7に例示するように、この例の音声認識装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
<Hardware configuration>
FIG. 7 is a block diagram illustrating a hardware configuration of the
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、音声認識装置100としてコンピュータを機能させるためのプログラムが格納されるプログラム領域14a及び各種データが格納されるデータ領域14bを有している。また、RAM16は、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、上記のプログラムが格納されるプログラム領域16a及び各種データが格納されるデータ領域16bを有している。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
The
<プログラム構成>
上述のように、プログラム領域14a,16aには、本実施例の音声認識装置100の各処理を実行するための各プログラムが格納される。音声認識プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。また、各プログラムが単体でそれぞれの機能を実現してもよいし、各プログラムがさらに他のライブラリを読み出して各機能を実現するものでもよい。
<Program structure>
As described above, each program for executing each process of the
<ハードウェアとプログラムとの協働>
CPU11(図7)は、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置14のプログラム領域14aに格納されている上述のプログラムをRAM16のプログラム領域16aに書き込む。同様にCPU11は、補助記憶装置14のデータ領域14bに格納されている各種データを、RAM16のデータ領域16bに書き込む。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
<Cooperation between hardware and program>
The CPU 11 (FIG. 7) writes the above-described program stored in the
図2は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成される音声認識装置100の機能構成を例示したブロック図である。
FIG. 2 is a block diagram illustrating the functional configuration of the
ここで、記憶部103は、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、記憶手段103、制御手段105、音声分析部23、音響モデル記憶部27、認識辞書記憶部129、言語モデル記憶部131、探索部25、変換部110は、CPU11に音声認識プログラムを実行させることにより構成されるものである。また、本形態の音声認識装置100は、制御部105の制御のもと各処理を実行する。
Here, the
実施例1と異なる部分のみ説明する。実施例1とは、変換部の構成が異なる。
<変換部210>
図8は実施例2に係る変換部210の構成例を、図9は変換部210の処理フロー例を示す。変換部210は、処理部211と代表値算出部217を有する。
Only parts different from the first embodiment will be described. The configuration of the conversion unit is different from that of the first embodiment.
<Conversion unit 210>
FIG. 8 illustrates a configuration example of the conversion unit 210 according to the second embodiment, and FIG. 9 illustrates a processing flow example of the conversion unit 210. The conversion unit 210 includes a processing unit 211 and a representative
<代表値算出部217>
代表値算出部217は、変換前認識結果の所定の区間における難易度の代表値を求める(s213)。
<Representative
The representative
<処理部211>
処理部211は、目標とする難易度を求めた代表値とし、認識辞書記憶部129を参照して、変換前認識結果の単語と同じ意味を持ち代表値に最も近い単語を選択する(s216)。
<Processing unit 211>
The processing unit 211 uses the representative value obtained as the target difficulty level, refers to the recognition
<処理フロー例>
変換部210は、変換前認識結果を入力され、変換後認識結果を出力する。変換部210は、探索部25から入力される変換前認識結果をバッファ等に記憶する。そこから所定の区間分の単語を取り出し認識辞書129を参照して各単語の難易度を取得し、所定の区間内での単語の難易度の代表値を算出する(s213)。これを各区間について行い、全区間の代表値をそれぞれ算出する。なお、所定の区間とは、変換する単語数、処理時間、また変換前認識結果の単語全てであってもよい。代表値としては、例えば、平均値、最頻値、中央値等が考えられる。
<Example of processing flow>
The converter 210 receives the pre-conversion recognition result and outputs the post-conversion recognition result. The conversion unit 210 stores the recognition result before conversion input from the
次に、バッファ等から変換前認識結果の単語を一つ取り出す(s112)。表示選択情報が、非表示可と設定されている場合には、認識辞書129を参照して、取り出した単語の表示フラグが非表示可能か否か判定し(s115)、表示フラグが非表示不可の場合には、この単語と同じ意味を持つ単語の中から、代表値の難易度に最も近い単語を選択する(s216)。変換部110は、s216において、同じ意味を持つ単語として、その単語自身が選択された場合には、特に変換処理を行わず、出力用のバッファ等にその単語を記録し、異なる難易度の単語が選択された場合には、その単語を選択された単語に変換し、出力用のバッファ等に変換後の単語を記録する。表示フラグが非表示可の場合には、変換後認識結果にこの単語を表示しないように変換する(s117)。なお、各単語は、各単語の属する区間の代表値の難易度に最も近い単語に変換される。なお、表示選択情報が非表示不可と設定されている場合には、表示フラグの判定(s115)や非表示変換(s117)を行わず、各単語について変換処理(s216)を行う。 Next, one word of the recognition result before conversion is extracted from the buffer or the like (s112). If the display selection information is set to be non-displayable, it is determined whether or not the display flag of the extracted word is non-displayable with reference to the recognition dictionary 129 (s115), and the display flag cannot be non-displayable. In the case of, a word closest to the difficulty level of the representative value is selected from words having the same meaning as this word (s216). When the word itself is selected as a word having the same meaning in s216, the conversion unit 110 records the word in an output buffer or the like without performing a conversion process, and the word has a different difficulty level. When is selected, the word is converted into the selected word, and the converted word is recorded in an output buffer or the like. If the display flag is non-displayable, conversion is performed so that this word is not displayed in the recognition result after conversion (s117). Each word is converted into a word closest to the difficulty level of the representative value of the section to which each word belongs. If the display selection information is set to be non-displayable, the display flag determination (s115) and non-display conversion (s117) are not performed, and conversion processing (s216) is performed for each word.
変換処理を行った単語は、図示しない出力用のバッファ等に記憶される。変換前認識結果の最後の単語か否かを判定し(s118)、最後の単語ではない場合には、変換前認識結果から次の単語を一つ取り出し、上記処理を繰り返す。最後の単語の場合には、変換後認識結果として、上記変換を行った認識結果を出力用のバッファ等から取り出し出力する(s119)。但し、変換後認識結果を変換毎に出力する構成としてもよい。 The word subjected to the conversion process is stored in an output buffer or the like (not shown). It is determined whether or not it is the last word of the recognition result before conversion (s118). If it is not the last word, one next word is extracted from the recognition result before conversion and the above process is repeated. In the case of the last word, as a recognition result after conversion, the recognition result obtained by the above conversion is extracted from an output buffer or the like and output (s119). However, the configuration may be such that the recognition result after conversion is output for each conversion.
例えば、図6(A)の変換前認識結果が入力された場合には、所定の区間を変換前認識結果の全単語とし代表値を平均値とすると、所定の区間の難易度の代表値は1.5となる。例えば、この値を切り上げ、難易度の代表値を2すると、変換後認識結果は図6(B)となる。 For example, when the recognition result before conversion shown in FIG. 6A is input, assuming that a predetermined section is all words of the recognition result before conversion and the representative value is an average value, the representative value of the difficulty of the predetermined section is 1.5. For example, when this value is rounded up and the representative value of the difficulty level is 2, the recognition result after conversion is as shown in FIG.
<効果>
このような構成によって、利用者が理解しやすい認識結果を求めることができるという効果を奏する。例えば、変換前認識結果の各単語の難易度から、所定の区間(例えば変換前認識結果全体)の難易度の代表値(例えば平均値)を求めることによって、各単語を含む所定の区間全体の難易度傾向が求められ、これらの代表値を変換後認識結果の難易度とすれば、極端に周りの単語と異なる難易度の単語がそのまま表示されるのを防止し、前後関係に見合った難易度の単語を表示することができる。
<Effect>
With such a configuration, it is possible to obtain a recognition result that is easy for the user to understand. For example, by obtaining a representative value (for example, an average value) of the difficulty level of a predetermined section (for example, the entire recognition result before conversion) from the difficulty level of each word of the recognition result before conversion, the entire predetermined section including each word is obtained. If a difficulty level trend is required, and these representative values are used as the difficulty level of the recognition result after conversion, words with difficulty levels that are extremely different from the surrounding words are prevented from being displayed as they are, and difficulty levels that match the context The word of the degree can be displayed.
本発明は、変換前認識結果を単に同じ意味の単語に変換するのではなく、難易度を用いて変換するため、利用者が理解しやすいテキストデータを求めることができる。 In the present invention, the recognition result before conversion is not simply converted into words having the same meaning, but is converted using the degree of difficulty, so that it is possible to obtain text data that is easy for the user to understand.
なお、設定情報として、実施例1の方法(手動)と実施例2の方法(自動)を何れかを選択する変換設定情報を変換部に入力する構成とし、実施例1と実施例2を組合せて利用することもできる。この場合、利用者が出力されるテキストデータを選択することができる。手動を選択した場合には、難易度選択情報を変換部に入力する。 In addition, as setting information, it is set as the structure which inputs the conversion setting information which selects either the method (manual) of Example 1 and the method (automatic) of Example 2 to a conversion part, and Example 1 and Example 2 are combined. Can also be used. In this case, the user can select text data to be output. When manual is selected, difficulty level selection information is input to the conversion unit.
100 音声認識装置 21 音声入力部
23 音声分析部 25 探索部
27 音響モデル記憶部 129 認識辞書記憶部
131 言語モデル記憶部 110、210 変換部
211 処理部 217 代表値算出部
DESCRIPTION OF
Claims (9)
音声情報を用いて該音声情報の音響的な特徴を求める音声分析部と、
各音素の音響的な特徴である音素情報が予め記憶される音響モデル記憶部と、
単語と、該単語の読みと、該単語の難易度と、該単語と同じ意味を持ち異なる難易度の単語とを対応付けて予め記憶される認識辞書記憶部と、
言語的な特徴が予め記憶される言語モデル記憶部と、
前記音声分析部で求めた該音声情報の音響的な特徴を用いて音響モデル記憶部から類似する音素情報を探索し、探索した1以上の音素情報を用いて認識辞書記憶部から単語を探索し、探索した1以上の単語と言語モデル記憶部の言語的な特徴を用いて、変換前認識結果を推定する探索部と、
前記認識辞書記憶部を参照して、前記変換前認識結果の単語と同じ意味を持つ単語の中から目標とする難易度に最も近い単語を選択する変換部と、
を有する音声認識装置。 A speech recognition device that recognizes the content of speech information and obtains the content as text data,
A voice analysis unit for obtaining acoustic characteristics of the voice information using the voice information;
An acoustic model storage unit in which phoneme information that is an acoustic feature of each phoneme is stored in advance;
A recognition dictionary storage unit which stores in advance a word, a reading of the word, a difficulty level of the word, and a word having the same meaning as the word and a difficulty level different from each other;
A language model storage unit in which linguistic features are stored in advance;
Search for similar phoneme information from the acoustic model storage unit using the acoustic features of the speech information obtained by the speech analysis unit, and search for words from the recognition dictionary storage unit using the searched one or more phoneme information. A search unit that estimates a recognition result before conversion using one or more searched words and linguistic features of the language model storage unit;
With reference to the recognition dictionary storage unit, a conversion unit that selects a word closest to the target difficulty level from words having the same meaning as the word of the recognition result before conversion,
A speech recognition apparatus.
前記変換部は、変換後の目標とする難易度を予め選択され、前記認識辞書記憶部を参照して、前記変換前認識結果の単語と同じ意味を持ち選択された難易度に最も近い単語を選択する、
ことを特徴とする音声認識装置。 The speech recognition apparatus according to claim 1,
The conversion unit selects a target difficulty level after conversion in advance, refers to the recognition dictionary storage unit, and selects a word closest to the selected difficulty level with the same meaning as the word of the recognition result before conversion. select,
A speech recognition apparatus characterized by that.
前記変換部は、前記変換前認識結果の所定の区間における難易度の代表値を求める代表値算出部を備え、目標とする難易度を前記代表値とし、前記認識辞書記憶部を参照して、前記変換前認識結果の単語と同じ意味を持ち代表値に最も近い単語を選択する、
ことを特徴とする音声認識装置。 The speech recognition apparatus according to claim 1,
The conversion unit includes a representative value calculation unit that obtains a representative value of the difficulty level in a predetermined section of the recognition result before conversion, sets the target difficulty level as the representative value, and refers to the recognition dictionary storage unit, Selecting a word that has the same meaning as the word of the recognition result before conversion and is closest to the representative value;
A speech recognition apparatus characterized by that.
前記認識辞書記憶部は、単語と、該単語の読みと、該単語の難易度と、該単語と同じ意味を持ち異なる難易度の単語と、変換後に該単語を表示するか否かを決定する表示フラグとを対応付けて予め記憶され、
前記変換部は、前記認識辞書記憶部を参照して、前記変換前認識結果の単語を変換後に表示するか否かを判定し、前記変換前認識結果の単語の表示フラグが表示することを意味する場合には、該単語と同じ意味を持つ単語の中から目標とする難易度に最も近い単語を選択し、表示フラグが表示しないことを意味する場合には、変換後認識結果に該単語と同じ意味を持つ単語を表示しないように変換する、
ことを特徴とする音声認識装置。 The speech recognition device according to any one of claims 1 to 3,
The recognition dictionary storage unit determines a word, a reading of the word, a difficulty level of the word, a word having the same meaning as the word and a different difficulty level, and whether to display the word after conversion. Pre-stored in association with the display flag,
The conversion unit refers to the recognition dictionary storage unit, determines whether or not to display the word of the recognition result before conversion after conversion, and displays the display flag of the word of the recognition result before conversion If it means that the word closest to the target difficulty level is selected from the words having the same meaning as the word, and the display flag is not displayed, Convert to not display words with the same meaning,
A speech recognition apparatus characterized by that.
前記音響モデル記憶部には各音素の音響的な特徴である音素情報が予め記憶され、前記認識辞書記憶部には単語と、該単語の読みと、該単語の難易度と、該単語と同じ意味を持ち異なる難易度の単語とを対応付けて予め記憶され、前記言語モデル記憶部には言語的な特徴が予め記憶されているものとし、
音声情報を用いて該音声情報の音響的な特徴を求める音声分析ステップと、
前記音声分析ステップで求めた該音声情報の音響的な特徴を用いて音響モデル記憶部から類似する音素情報を探索し、探索した1以上の音素情報を用いて認識辞書記憶部から単語を探索し、探索した1以上の単語と言語モデル記憶部の言語的な特徴を用いて、変換前認識結果を推定する探索ステップと、
前記認識辞書記憶部を参照して、前記変換前認識結果の単語と同じ意味を持つ単語の中から目標とする難易度に最も近い単語を選択する変換ステップと、
を有する音声認識方法。 A speech recognition method for recognizing the content of speech information using an acoustic model storage unit, a recognition dictionary storage unit, and a language model storage unit, and obtaining the content as text data,
The phone model information that is the acoustic feature of each phoneme is stored in advance in the acoustic model storage unit, and the word, the reading of the word, the difficulty of the word, and the same as the word are stored in the recognition dictionary storage unit Assume that words having different meanings and different difficulty levels are stored in advance, and language features are stored in advance in the language model storage unit.
A voice analysis step for obtaining an acoustic feature of the voice information using the voice information;
Search for similar phoneme information from the acoustic model storage unit using the acoustic features of the speech information obtained in the speech analysis step, and search for words from the recognition dictionary storage unit using the searched one or more phoneme information. A search step for estimating a pre-conversion recognition result using one or more searched words and linguistic features of the language model storage unit;
A conversion step of referring to the recognition dictionary storage unit and selecting a word closest to a target difficulty level from words having the same meaning as the word of the recognition result before conversion;
A speech recognition method comprising:
前記変換ステップは、変換後の目標とする難易度を予め選択され、前記認識辞書記憶部を参照して、前記変換前認識結果の単語と同じ意味を持ち選択された難易度に最も近い単語を選択する、
ことを特徴とする音声認識方法。 The speech recognition method according to claim 5,
In the conversion step, a target difficulty level after conversion is selected in advance, and referring to the recognition dictionary storage unit, a word that has the same meaning as the word of the recognition result before conversion and is closest to the selected difficulty level is selected. select,
A speech recognition method characterized by the above.
前記変換ステップは、前記変換前認識結果の所定の区間における難易度の代表値を求める代表値算出ステップを備え、目標とする難易度を前記代表値とし、前記認識辞書記憶部を参照して、前記変換前認識結果の単語と同じ意味を持ち代表値に最も近い単語を選択する、
ことを特徴とする音声認識方法。 The speech recognition method according to claim 5,
The conversion step includes a representative value calculation step for obtaining a representative value of the difficulty level in a predetermined section of the recognition result before conversion, the target difficulty level as the representative value, and referring to the recognition dictionary storage unit, Selecting a word that has the same meaning as the word of the recognition result before conversion and is closest to the representative value;
A speech recognition method characterized by the above.
前記認識辞書記憶部は、単語と、該単語の読みと、該単語の難易度と、該単語と同じ意味を持ち異なる難易度の単語と、変換後に該単語を表示するか否かを決定する表示フラグとを対応付けて予め記憶され、
前記変換ステップは、前記認識辞書記憶部を参照して、前記変換前認識結果の単語を変換後に表示するか否かを判定し、前記変換前認識結果の単語の表示フラグが表示することを意味する場合には、該単語をと同じ意味を持つ単語の中から目標とする難易度に最も誓い単語を選択し、表示フラグが表示しないことを意味する場合には、変換後認識結果に該単語と同じ意味を持つ単語を表示しないように変換する、
ことを特徴とする音声認識方法。 The speech recognition method according to any one of claims 5 to 7,
The recognition dictionary storage unit determines a word, a reading of the word, a difficulty level of the word, a word having the same meaning as the word and a different difficulty level, and whether to display the word after conversion. Pre-stored in association with the display flag,
The conversion step refers to the recognition dictionary storage unit to determine whether to display the pre-conversion recognition result word after conversion, and to display the pre-conversion recognition word display flag If it means that the most vowed word is selected for the target difficulty level from words having the same meaning as that of the word, and the display flag is not displayed, the word is included in the recognition result after conversion. To avoid displaying words with the same meaning as
A speech recognition method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009118361A JP2010266716A (en) | 2009-05-15 | 2009-05-15 | Voice recognition device, and method and program of the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009118361A JP2010266716A (en) | 2009-05-15 | 2009-05-15 | Voice recognition device, and method and program of the same |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010266716A true JP2010266716A (en) | 2010-11-25 |
Family
ID=43363727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009118361A Pending JP2010266716A (en) | 2009-05-15 | 2009-05-15 | Voice recognition device, and method and program of the same |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010266716A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072578A (en) * | 2016-10-31 | 2018-05-10 | パナソニックIpマネジメント株式会社 | Dictionary correction method, dictionary correction program, speech processing unit and robot |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0335296A (en) * | 1989-06-30 | 1991-02-15 | Sharp Corp | Text voice synthesizing device |
JP2005004100A (en) * | 2003-06-13 | 2005-01-06 | Canon Inc | Listening system and voice synthesizer |
-
2009
- 2009-05-15 JP JP2009118361A patent/JP2010266716A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0335296A (en) * | 1989-06-30 | 1991-02-15 | Sharp Corp | Text voice synthesizing device |
JP2005004100A (en) * | 2003-06-13 | 2005-01-06 | Canon Inc | Listening system and voice synthesizer |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018072578A (en) * | 2016-10-31 | 2018-05-10 | パナソニックIpマネジメント株式会社 | Dictionary correction method, dictionary correction program, speech processing unit and robot |
CN108022582A (en) * | 2016-10-31 | 2018-05-11 | 松下知识产权经营株式会社 | Dictionary modification method, dictionary revision program, sound processing apparatus and robot |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102582291B1 (en) | Emotion information-based voice synthesis method and device | |
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
US11037553B2 (en) | Learning-type interactive device | |
JP6556575B2 (en) | Audio processing apparatus, audio processing method, and audio processing program | |
JP6154155B2 (en) | Spoken dialogue system using prominence | |
JPWO2016151700A1 (en) | Intent understanding device, method and program | |
JP6580882B2 (en) | Speech recognition result output device, speech recognition result output method, and speech recognition result output program | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
JP5221768B2 (en) | Translation apparatus and program | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
JP5007401B2 (en) | Pronunciation rating device and program | |
JPWO2011033834A1 (en) | Speech translation system, speech translation method, and recording medium | |
Erro et al. | Personalized synthetic voices for speaking impaired: website and app. | |
JP7110055B2 (en) | Speech synthesis system and speech synthesizer | |
JP6276513B2 (en) | Speech recognition apparatus and speech recognition program | |
JP5068225B2 (en) | Audio file search system, method and program | |
JP2014066779A (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
JP4859125B2 (en) | Pronunciation rating device and program | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
JP2010266716A (en) | Voice recognition device, and method and program of the same | |
JP2011107650A (en) | Voice feature amount calculation device, voice feature amount calculation method, voice feature amount calculation program and voice recognition device | |
Mittal et al. | Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi | |
JP2008293098A (en) | Answer score information generation device and interactive processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110720 |
|
A621 | Written request for application examination |
Effective date: 20111012 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
A977 | Report on retrieval |
Effective date: 20120831 Free format text: JAPANESE INTERMEDIATE CODE: A971007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A02 | Decision of refusal |
Effective date: 20130108 Free format text: JAPANESE INTERMEDIATE CODE: A02 |