JP2014119536A - Sound recognition device - Google Patents
Sound recognition device Download PDFInfo
- Publication number
- JP2014119536A JP2014119536A JP2012273275A JP2012273275A JP2014119536A JP 2014119536 A JP2014119536 A JP 2014119536A JP 2012273275 A JP2012273275 A JP 2012273275A JP 2012273275 A JP2012273275 A JP 2012273275A JP 2014119536 A JP2014119536 A JP 2014119536A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- speech
- voice
- identifier
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は音データに含まれる音声又は非音声音を認識する音認識装置に関する。 The present invention relates to a sound recognition device that recognizes a voice or a non-voice sound included in sound data.
キーボードやタッチパネルのような入力装置を利用することなく、マイク等を介して入力される音声を文字に変換する音声認識が盛んに行われている。また、音声以外の非音声音を識別し、視覚データに変換する技術も検討されている。 Voice recognition for converting voice input through a microphone or the like into characters without using an input device such as a keyboard or a touch panel is actively performed. In addition, a technique for identifying non-speech sounds other than speech and converting it into visual data is also being studied.
同一音声でも文字の異なる語彙は多くあるため、音声から文字データへの変換は困難であり、音声認識の分野では、認識率の向上が課題になっている。 Since there are many vocabulary with different characters even in the same speech, it is difficult to convert speech to character data. In the field of speech recognition, improvement of the recognition rate is an issue.
認識率を向上させるため、例えば、場面に応じて音声認識に利用する辞書(例えば、医療用語用、会議用語用等)を使い分けることで、各場面で使用される頻度が高い文字に変換する方法もある。 In order to improve the recognition rate, for example, by selectively using a dictionary (for example, for medical terms, for conference terms) used for speech recognition according to the scene, it is converted into characters that are frequently used in each scene There is also.
上述したように、音声認識の精度を向上させることが課題であった。また、非音声音を認識精度も同様に向上させることが課題であった。 As described above, it has been a problem to improve the accuracy of speech recognition. Further, it has been a problem to improve the recognition accuracy of non-speech sounds as well.
上記課題に鑑み、音データを認識する精度を向上した音認識装置を提供することを目的としている。 In view of the above problems, an object of the present invention is to provide a sound recognition device with improved accuracy for recognizing sound data.
上記目的を達成するために、音声処理部は、音データの入力があった場合に、入力された音データに含まれる音声の種類の候補を出力する。非音声処理部は、音データの入力があった場合に、入力された音データが音声の特徴を持たない非音声音かどうかを判定するとともに、前記入力された音データが非音声音であった場合に、前記非音声音に対して識別子を対応付ける。演算部は、前記非音声処理部において、前記非音声音に対して識別子が対応付けられ、かつ、前記非音声音に対して識別子が対応付けられてから所定時間以内に前記音声処理部から前記音声の種類の候補が入力された場合、前記履歴データベースに基づいて、前記候補に対して重み付けをし、前記重み付けされた音声の種類の候補に基づいて前記音声の種類を決定する。 In order to achieve the above object, the sound processing unit outputs a sound type candidate included in the input sound data when the sound data is input. The non-speech processing unit determines whether or not the input sound data is a non-speech sound having no sound feature when sound data is input, and the input sound data is a non-speech sound. In this case, an identifier is associated with the non-voice sound. The calculation unit is configured so that, in the non-voice processing unit, an identifier is associated with the non-speech sound, and the identifier is associated with the non-speech sound, and the speech processing unit transmits the identifier within a predetermined time. When a voice type candidate is input, the candidate is weighted based on the history database, and the voice type is determined based on the weighted voice type candidate.
本発明によれば、音認識の精度を向上させることができる。 According to the present invention, the accuracy of sound recognition can be improved.
図面を用いて本発明の各実施形態に係る音認識装置について説明する。なお、以下の各図面において、同一の構成については同一の符号を用いて説明を省略する。 The sound recognition apparatus according to each embodiment of the present invention will be described with reference to the drawings. In the following drawings, the same components are denoted by the same reference numerals and the description thereof is omitted.
〈第1実施形態〉
第1実施形態に係る音認識装置は、音声認識を利用して、入力される音声を文字データに変換して出力する装置である。第1実施形態に係る音認識装置は、複数の文字データの候補から音声に対応する文字データを決定する際、音声の入力タイミングから過去の所定時間内(例えば、3分前まで)に入力された非音声音を利用する。以下では、人間が声によって発した音を「音声」とする。また、音声以外の音(例えば、機械音等)を「非音声音」とする。音認識装置では、音声認識に非音声音を利用することで、音声認識の精度を向上させることができる。
<First Embodiment>
The sound recognition apparatus according to the first embodiment is an apparatus that converts input speech into character data and outputs the speech using speech recognition. When the sound recognition apparatus according to the first embodiment determines character data corresponding to speech from a plurality of character data candidates, it is input within a predetermined time in the past (for example, up to 3 minutes before) from the speech input timing. Use non-speech sound. Hereinafter, a sound produced by a human voice is referred to as “speech”. Further, a sound other than voice (for example, mechanical sound) is referred to as “non-voice sound”. In the sound recognition device, the accuracy of speech recognition can be improved by using non-speech sounds for speech recognition.
図1に示すように、第1実施形態に係る音認識装置1aは、音データが入力されるマイクロフォン等の入力部11と、音データに含まれる音声を解析する音声処理部12と、音データに含まれる音声以外の非音声音を解析する非音声音処理部13と、音声処理部12及び非音声音処理部13の処理の結果を利用して音声に対応する文字データを決定する重み付け処理部14と、文字データを出力するディスプレイ等の出力部15と、記憶装置20とを備えている。
As shown in FIG. 1, the
非音声音処理部13は、非音声音を解析するため、解析部131、検索部132及び追加部133を有している。また、重み付け処理部14は、文字データを決定するため、判定部141、選択部142、演算部143及び更新部144を有している。
The non-speech
記憶装置20は、音認識プログラムP1、音声データベースD1、非音声音データベースD2及び履歴データベースD3を記憶している。
The
具体的には、音認識装置1aは、CPU(中央処理装置)10、入力部11、出力部15及び記憶装置20を備える情報処理装置であって、記憶装置20に記憶される音認識プログラムP1が実行されることで、CPU10が音声処理部12、非音声音処理部13及び重み付け処理部14として処理を実行する。
Specifically, the
音声データベースD1は、音声処理部12において、音データに含まれる音声を対応する文字データに変換する際に利用するデータであって、一般的な音声認識で利用されるデータである。例えば、音声データベースD1では、音声の波形データや周波数データ等と発音記号とが対応づけられる「音響モデルデータ」と、発音記号と単語の文字データとが対応づけられる「辞書データ」と、単語文字データから文章の文字データへの変換に利用される「言語モデルデータ」とを含んでいる。「言語モデルデータ」は例えば単語と単語のつながりを確率によって紐付けたデータである。音声処理部12では、入力された音声を単語の文字データへ変換してもよいし、文章の文字データへ変換してもよい。
The voice database D1 is data used when the
非音声音データベースD2は、非音声音の波形データや周波数データ等の音を特定できる特徴量データと、当該非音声音の識別子とが関連付けられたデータベースである。例えば、非音声音データベースD2は、非音声音であるチャイムの音とチャイムの音に付された識別子、非音声音である電話の音と電話の音に付された識別子等を関連付けている。 The non-speech sound database D2 is a database in which feature data that can specify a sound, such as waveform data and frequency data of a non-speech sound, and an identifier of the non-speech sound are associated with each other. For example, the non-speech sound database D2 associates chime sounds that are non-speech sounds with identifiers attached to chime sounds, telephone sounds that are non-speech sounds, identifiers attached to phone sounds, and the like.
履歴データベースD3は、非音声音の識別子及び文字データに対して文字データの決定に利用する重み値を関連付けたデータである。ここでは、ある非音声音の入力後所定時間内(例えば、3分以内)にある音声が入力された頻度を重み値として利用している。 The history database D3 is data in which a weight value used for determining character data is associated with an identifier of non-voice sound and character data. Here, the frequency of input of a sound within a predetermined time (for example, within 3 minutes) after input of a certain non-speech sound is used as a weight value.
図2(a)に示す履歴データベースD3では、識別子「A音」が付された非音声音であるチャイムの音を入力後、音声「お疲れ様」が入力された頻度が40%であり、音声「おはようございます」が入力された頻度が35%であることを示している。すなわち、記憶装置20は、履歴データベースD3として例えば(識別子が付された非音声音)と(音声)に対応付けられて頻度を記憶している。履歴データベースD3に記憶する頻度は例えば「(識別子が付された非音声音)が検出されてから所定時間以内に(音声)が検出された回数/(識別子が付された非音声音)が検出された回数」として算出する。具体例は、<チャイムが検知された後3分以内に「お疲れ様」が認識された回数>/<チャイムが検知された回数>として算出された頻度が40%である。なお、一つの非音声音に対して、3分以内に発せられる音声は、一つとは限らないので、音声ひとつひとつが、独立して0〜100%の値をとり得ることになる。例えば、初めてチャイムの音を認識した後、3分以内に「さようなら」と、「お疲れ様」が両方認識された場合、その時点での履歴データベースは両方100パーセントとなる。また、識別子「B音」が付された非音声音である電話の音を入力後、音声「はい」が入力された頻度が75%であり、音声「株式会社××です」が入力された頻度が72%であり、音声「もしもし」が入力された頻度が48%であることを示している。さらに、識別子「C音」が付された非音声音の入力後、音声「進捗」が入力された頻度が85%であることを示している。
In the history database D3 shown in FIG. 2 (a), after inputting a chime sound, which is a non-speech sound with the identifier “A sound”, the frequency of input of the voice “Thank you” is 40%. "Good morning" indicates that the frequency of input is 35%. That is, the
音声処理部12は、入力部11から音データが入力されると、入力された音データを解析し、音データに含まれる音声に対応する1以上の文字データの候補を特定する。具体的には、音声処理部12は、記憶装置20に記憶される音声データベースD1を読み出し、音データに含まれる音声の波形データや周波数データを、音声データベースD1の「音響モデルデータ」に含まれる各音声の波形データや周波数データと比較して類似度の高い発音記号を導出する。次に、導出した発音記号に対し「辞書データ」または「言語モデルデータ」を適用して、単語の文字データまたは文章の文字データに変換し、単語の文字データまたは文章の文字データをその確からしさを示すスコアとともに出力する。音声処理部12は、例えば、発音記号を類似度とともに導出する。そして音声処理部12は、類似度に対し発音記号が「辞書データ」に含まれるか否か、及び含まれる場合は「音響モデル」に含まれる単語のつながりが確からしいか否かによって、類似度に重み付けをして発音記号が示す文字データのスコアとして導出する。また、音声処理部12は、例えば、図2(b)に一例を示すように、スコアが所定の条件に該当する音声の文字データを全て抽出し、抽出した文字データとスコアとを対応させて音声処理の処理結果(音声処理結果)として重み付け処理部14に出力する。
When sound data is input from the
ここで、音声処理部12が文字データを抽出する条件としては、(1)スコアが特定の値以上(例えば、50以上)の文字データを抽出、(2)スコアが上位所定数(例えば、3位以上)の文字データを抽出、(3)スコアが1位のスコアから所定範囲内のスコア(例えば、1位のスコアからマイナス5以内のスコア)の文字データを抽出、等が考えられる。
Here, as conditions for the
解析部131は、入力部11から音データが入力されると、入力された音データを解析し、非音声音をメモリ(図示せず)に記憶させる。具体的には、解析部131は、入力された音データの音量が所定の閾値以上であるか否かを判定する。解析部131は、閾値以上の音量の音データに対し、音声か否かを判定する。解析部131は、音声ではない、閾値以上の音データを非音声音として判定する。解析部131による音声か否かの判定方法の例は、入力された音データをある時間幅のフレーム単位で切り出し、フレームごとに周波数変換を行い、各周波数のエネルギーと所定の帯域幅において時間平均したエネルギーとの比が閾値を超えるか否かに基づき判定する。解析部131による音声か否かの判定方法の他の例は、入力された音データをある時間幅のフレーム単位で切り出し、周波数変換し、ピークとなっているスペクトルを、スペクトルエネルギーを所定値と比較すること等により検出し、ピークのスペクトル同士が基音と倍音の関係となっていることを検出した場合に音声であると判定する。解析部131による音声の判定方法は、例えば、特願2011−254578や特願2011−260036に記載された技術を用いることができる。
When sound data is input from the
また、解析部131は、閾値以上の音量の音データに含まれる非音声音を抽出した場合、非音声音のデータのメモリへの蓄積を開始する。その後、解析部131は、非音声音の音量が閾値未満となったとき、メモリへの非音声音の蓄積を終了する。ここで利用する閾値は、処理対象とする音データの音量の判定に利用するものとして予め音認識装置1aで定められている。これにより、雑音のように音量が閾値未満の音について処理を不要とし、音認識装置1aにおける処理負担を軽減することができる。
Further, when the non-speech sound included in the sound data having a volume equal to or higher than the threshold value is extracted, the
また、解析部131は、非音声音のメモリへの蓄積を開始すると、蓄積の開始のタイミングを基準として計時を開始し、非音声音のメモリへの蓄積開始から所定時間(例えば、5秒)を経過後、メモリへの非音声音の蓄積を終了するようにしてもよい。これにより、長い非音声音については、音の冒頭部分のみを検知、比較対象とすることができ、データベース用のメモリ容量の削減と検知レスポンスの向上が可能となる。
Further, when the
検索部132は、解析部131によってメモリへ非音声音が蓄積されると、非音声音データベースD2からメモリに記憶された非音声音の識別子を検索する。
When the non-sound sound is accumulated in the memory by the
具体的には、検索部132は、記憶装置20から非音声音データベースD2を読み出し、非音声音データベースD2に含まれる各非音声音について、メモリで記憶される非音声音と比較してそれぞれ類似度を求める。検索部132は、例えば非音声音データベースに含まれる各非音声音の波形データや周波数データについて、メモリで記憶された非音声音の波形データや周波数データと比較してそれぞれ類似度を求める。
Specifically, the
また、検索部132は、非音声音データベースD2に含まれる全ての非音声音についてメモリに記憶される非音声音との類似度を求めると、求めた類似度のうち最も高い類似度が所定の閾値以上であるか否かを判定する。ここで利用する閾値は、非音声音データベースD2に含まれる非音声音とメモリに記憶される非音声音とが同一の内容を表すものであることを判定するために、音認識装置1aで予め定められている値である。
Further, when the
最も高い類似度が閾値以上であるとき、検索部132は、類似度が最も高い非音声音の識別子を処理結果(非音声音処理結果)として重み付け処理部14に出力する。ここで、最も高い類似度が閾値未満の場合は、検索部132においてメモリに記憶される非音声音は非音声音データベースD2には含まれていないと判定された場合であり、検索部132は、この非音声音を追加部133に出力する。
When the highest similarity is greater than or equal to the threshold, the
追加部133は、検索部132から非音声音が入力されると、入力された非音声音に識別子を付して、非音声音データベースD2に追加する。また、追加部133は、この非音声音の識別子を処理結果(非音声音処理結果)として重み付け処理部14に出力する。
When a non-speech sound is input from the
判定部141は、音声処理部12と非音声音処理部13から処理結果が入力されるタイミングを判定している。具体的には、判定部141は、非音声音処理部13から非音声音処理結果が入力されると、非音声音処理結果である非音声音の識別子をメモリ(図示せず)に記憶させるとともに、入力タイミングを基準として計時を開始する。その後、非音声音処理部13から新たな非音声音の識別子が入力されると、判定部141は、メモリで記憶される識別子を新たな非音声音の識別子に更新するとともに、前回の計時を終了し、新たに計時を開始する。
The
一方、判定部141は、音声処理部12から音声処理結果が入力されると、非音声音処理部13から非音声音処理結果が入力後、所定時間内(例えば、3分以内)であるか否かを判定する。所定時間内である場合、判定部141は、音声処理部12から入力された音声処理結果及びメモリで記憶する非音声音の識別子を選択部142に出力する。また、所定時間経過後である場合、判定部141は、音声処理部12から入力された音声処理結果のみを出力部15に出力する。
On the other hand, when the sound processing result is input from the
選択部142は、判定部141から音声処理結果及び非音声音の識別子が入力されると、記憶装置20から履歴データベースD3を読み出す。また、選択部142は、読み出した履歴データベースD3から、入力された非音声音の識別子と、音声処理結果に含まれる各文字データとに対応する頻度を選択し、この選択結果を非音声音の識別子及び音声処理結果とともに、演算部143に出力する。
The
一方、非音声音処理部13の追加部133で非音声音データベースD2に追加した非音声音のように、新たな非音声音については、履歴データベースD3に含まれていない。このように、非音声音の識別子及び音声処理結果に含まれる文字データとの組み合わせに関連付けられる頻度が履歴データベースD3に含まれていない場合、選択部142は、この組み合わせについての頻度は選択できない。したがって、選択部142は、音声処理結果において最もスコアの高い文字データを音声に対応する文字データとして出力部15に出力するとともに、非音声音の識別子、音声処理結果及び音声に対応すると決定された文字データを更新部144に出力する。
On the other hand, the new non-sound sound is not included in the history database D3 like the non-sound sound added to the non-sound sound database D2 by the adding
また、音声処理部12からの処理結果の入力が非音声音処理部13からの処理結果の入力から所定時間が経過後であることにより判定部141から音声処理結果のみが入力された場合にも、選択部142は、履歴データベースD3から頻度を選択することができない。したがって、この場合、選択部142は、音声処理結果において最もスコアの高い文字データを音声に対応する文字データとして出力部15に出力し、更新部144にはデータを出力しない。
Further, when only a sound processing result is input from the
演算部143は、選択部142から非音声音の識別子、音声処理結果及び選択結果が入力されると、音声処理結果に含まれるスコアを重み付けする演算をし、音声に対応する文字データを決定する。具体的には、演算部143は、各文字データの候補についてスコアを重み付けして新たなスコアを演算し、新たなスコアが最も高い文字データを音声に対応する文字データとして出力部15に出力する。また、演算部143は、決定された音声に対応する文字データ、非音声音の識別子及び音声処理結果を更新部144に出力する。
When the identifier of the non-speech sound, the voice processing result, and the selection result are input from the
例えば、演算部143は、非音声音の識別子と各文字データの組み合わせについて、式(1)のような数式で重み付けした新たなスコアを求める。式(1)においてr1は、予め定められる係数である。
For example, the
新たなスコア=スコア+頻度×r1 …(1)
更新部144は、入力されるデータに応じて、履歴データベースD3の頻度を更新する。具体的には、更新部144は、演算部143から決定された文字データ、非音声音の識別子及び音声処理結果が入力されると、非音声音の識別子及び選択された音声に対応する文字データと関連付けられる頻度をより高い頻度に更新し、非音声音の識別子及び選択された音声処理結果に含まれる音声に対応する文字データ以外の文字データと関連付けられる頻度をより低い頻度に更新するように履歴データベースD3を更新する。ここで、履歴データベースD3に非音声音の識別子及び音声処理結果に含まれる文字データと関連付けられる頻度がないとき、更新部144は、非音声音の識別子及び文字データに頻度を関連付けて履歴データベースD3に追加する。
New score = score + frequency × r1 (1)
The
また、更新部144は、選択部142から決定された文字データ、非音声音の識別子及び音声処理結果が入力されると、非音声音の識別子及び決定された音声に対応する文字データと関連付けられる頻度をより高い頻度に更新し、入力した非音声音の識別子及び音声処理結果に含まれる音声に対応すると決定された文字データ以外の文字データと関連付けられる頻度をより低い頻度に更新するように履歴データベースD3を更新する。
In addition, when the character data determined from the
(非音声音処理部における処理)
図3に示すフローチャートを利用して、非音声音処理部13における処理を説明する。
(Processing in the non-voice sound processing unit)
Processing in the non-speech
図3の処理は、装置の電源がONになったときに開始される。非音声音処理部13は、解析部131において入力部11を介して入力された音データを解析し、入力された音データの音量が閾値以上であるか否かを判定する(S10)。音データの音量が閾値以上であるとき(S10でYES)、解析部131は音データが非音声音であるか否かを判定する(S11)。ここで、閾値以上の音量の音データの入力がない場合(S10でNO)及び音声データに非音声音が含まれない場合(S11でNO)、ステップS10に戻り、処理を繰り返す。
The process of FIG. 3 is started when the apparatus is turned on. The non-speech
閾値以上の音量の音データに非音声音が含まれるとき(S11でYES)、解析部131は、非音声音のメモリへの蓄積を開始する。また、検索部132は、非音声音データベースD2に含まれる各非音声音とメモリに記憶される非音声音との類似度を求めて比較する(S12)。
When the non-speech sound is included in the sound data having a volume equal to or higher than the threshold (YES in S11), the
非音声音データベースD2に入力された非音声音と類似の非音声音が含まれているとき(S13でYES)、解析部131は、入力される非音声音のメモリへの蓄積を終了し、検索部132は、非音声音データベースD2に含まれる各非音声音とメモリに記憶される非音声音との比較を終了する(S14)。データの蓄積及び比較が終了して非音声音の識別子が特定されると、検索部132は、非音声音の識別子を処理結果として重み付け処理部14に出力し、メモリに蓄積した非音声音のデータを破棄する(S18)。
When the non-speech sound similar to the non-speech sound input to the non-speech sound database D2 is included (YES in S13), the
これに対し、非音声音データベースD2に入力された非音声音と類似の非音声音が含まれていないとき(S13でNO)、解析部131は、続いて入力される音データの音量が閾値未満か、または、非音声音のメモリへの蓄積時間が所定時間以上か否かを判定する(S15)。新たな音データの音量が閾値以上の場合及び非音声音のメモリへの蓄積時間が所定時間内の場合、ステップS12に戻り、データの蓄積及び比較の処理を繰り返す。
On the other hand, when the non-speech sound similar to the non-speech sound input to the non-speech sound database D2 is not included (NO in S13), the
新たに入力する音データの音量が閾値未満となった場合又は蓄積時間が所定時間以上となったとき(S15でYES)、解析部131は、入力される非音声音のメモリへの蓄積を終了し、検索部132は、非音声音データベースD2に含まれる各非音声音とメモリに記憶される非音声音との比較を終了する(S16)。その後、追加部133は、非音声音に新たな識別子を付して非音声音データベースD2に追加する(S17)。また、非音声音データベースD2に非音声音及び非音声音の識別子が追加されると、追加部133は、新たに付した非音声音の識別子を処理結果として重み付け処理部14に出力し、メモリに蓄積した非音声音のデータを破棄する(S18)。
When the volume of newly input sound data is less than the threshold value or when the accumulation time is equal to or longer than the predetermined time (YES in S15), the
(重み付け処理部における処理)
図4に示すフローチャートを利用して、重み付け処理部14における処理を説明する。図4に示すフローチャートは装置の電源がONになったときに開始される。重み付け処理部14の判定部141は、音声処理部12及び非音声音処理部13からの処理結果の入力を待機しており、非音声音処理部13から処理結果である非音声音の識別子が入力されると(S20でYES)、計時を開始する(S21)。
(Processing in the weighting processing unit)
The process in the
その後、音声処理部12から処理結果が入力されると(S22でYES)、判定部141は、非音声音処理部13から非音声音の識別子を入力後、所定時間内であるか否かを判定する(S23)。
Thereafter, when the processing result is input from the sound processing unit 12 (YES in S22), the
所定時間内であるとき(S23でYES)、選択部142は、入力された非音声音の識別子と音声処理結果に含まれる各文字データに関連付けられる頻度が履歴データベースD3に含まれるか否かを判定する(S24)。
When it is within the predetermined time (YES in S23), the
入力された非音声音の識別子及び音声処理結果に含まれる各文字データと関連付けられる頻度が履歴データベースD3に含まれるとき(S24でYES)、演算部143は、重み付け処理を実行する。すなわち、演算部143は、音声処理結果に含まれる各文字データの候補のスコアについて、重み値である頻度を利用して新たなスコアを求める(S25)。詳細は上述した式(1)を用いた演算である。その後、演算部143は、最もスコアが高くなった文字データを音声に対応すると文字データと決定し、結果として出力する(S26)。
When the history database D3 includes the identifier of the input non-speech sound and the frequency associated with each character data included in the speech processing result (YES in S24), the
一方、所定時間内でないとき(S23でNO)又は入力された非音声音の識別子及び音声処理結果に含まれる各文字データに関連付けられる頻度が履歴データベースD3に含まれていないとき(S24でNO)、選択部142は、音声処理結果に含まれるスコアが最も高い文字データを音声に対応する文字データと決定し、結果として出力する(S26)。
On the other hand, when it is not within the predetermined time (NO in S23), or when the frequency database associated with each character data included in the input non-speech sound identifier and the voice processing result is not included in the history database D3 (NO in S24) The
また、更新部144は、音声に対応する文字データが決定されると、履歴データベースD3に含まれる頻度を更新する(S27)。
Further, when the character data corresponding to the voice is determined, the
なお、非音声音処理部13及び音声処理部12から処理結果の入力がないとき(S20でNO及びS22でNO)、ステップS20に戻り、非音声音処理部13又は音声処理部12からの処理結果を待機する。
When no processing result is input from the non-sound
上述した実施例では、音声処理部12は音声に対応する文字データを出力したが、文字データではなく、音声の種類を示す形態であれば、例えば音声に対応する識別子やアイコンなどでもよく、文字データに限らない。
In the above-described embodiment, the
上述したように、第1実施形態に係る音認識装置1aは、音声認識の際に、過去の所定時間内に取得された非音声音を利用する。したがって、非音声音の取得から一定時間内に取得される音声に対応する種類を予測することが可能となり、音声認識の精度を向上させることができる。
As described above, the
また、音認識装置1aで利用される非音声音データベースD2や履歴データベースD3は利用に応じて自動で更新されるため、利用者の登録作業等の処理がなくても音声認識の精度が向上させることができる。
In addition, since the non-speech sound database D2 and the history database D3 used in the
〈第2実施形態〉
第2実施形態に係る音認識装置は、音データに含まれる非音声音を視覚データに変換する際、非音声音の入力タイミングから過去の所定時間内(例えば、3分前まで)に入力された音声を利用する。ここでも、人間が声によって発した音を「音声」とし、音声以外の音を「非音声音」とする。非音声音の特定に音声を利用することで、非音声音への変換の精度を向上させることができる。
Second Embodiment
In the sound recognition device according to the second embodiment, when converting non-sound sound included in sound data into visual data, the sound recognition device is input within a predetermined time in the past (for example, up to 3 minutes before) from the input timing of the non-sound sound. Use your voice. Here again, a sound produced by a human voice is referred to as “speech”, and a sound other than the sound is referred to as “non-speech sound”. By using the voice for specifying the non-voice sound, the accuracy of conversion to the non-voice sound can be improved.
図5に示すように、第2実施形態に係る音認識装置1bは、図1を用いて上述した第1実施形態に係る音認識装置1aと比較して、音声処理部12に代えて音声処理部12bを有し、非音声音処理部13に代えて非音声音処理部13bを有し、重み付け処理部14に代えて重み付け処理部14bを有している点で異なる。また、音認識装置1bは、音認識装置1aと比較して、記憶装置20において、音認識プログラムP1に代えて音認識プログラムP2を記憶し、履歴データベースD3に代えて履歴データベースD4を記憶している。すなわち、音認識装置1bでは、記憶装置20に記憶される音認識プログラムP2が実行されることで、CPU10が音声処理部12b、非音声音処理部13b及び重み付け処理部14bとして処理が実行される。
As shown in FIG. 5, the
履歴データベースD4は、文字データ及び非音声音の識別子に対して、非音声音の決定に利用する重み値を関連付けたデータベースである。ここでは、ある文字データの音声の入力後所定時間内(例えば、3分以内)に当該非音声音を入力された頻度を重み値として利用している。 The history database D4 is a database in which weight values used for determining non-speech sounds are associated with character data and non-speech sound identifiers. Here, the frequency at which the non-speech sound is input within a predetermined time (for example, within 3 minutes) after inputting the sound of certain character data is used as a weight value.
図6(a)に示す履歴データベースD4では、音声「お疲れ様」を入力後、識別子「A音」が付された非音声音であるチャイムの音が入力された頻度が40%、識別子「B音」が付された電話の音が入力された頻度が35%であることを示している。また、音声「おはようございます」を入力後、識別子「C音」が付された非音声音が入力された頻度が30%、識別子「D音」が付された非音声音が入力された頻度が25%、識別子「E音」が付された非音声音が入力された頻度が10%であることを示している。 In the history database D4 shown in FIG. 6A, after inputting the voice “Thank you”, the frequency of input of the chime sound, which is a non-speech sound with the identifier “A sound”, is 40%, and the identifier “B sound” This indicates that the frequency of inputting the sound of a telephone with “” is 35%. In addition, after inputting the voice “Good morning”, the frequency with which the non-speech sound with the identifier “C sound” is input is 30%, and the frequency with which the non-speech sound with the identifier “D sound” is input. Is 25%, and the frequency of input of the non-speech sound with the identifier “E sound” is 10%.
音声処理部12bは、入力部11から音データが入力されると、音データに含まれる音声に対応する文字データを出力する。このとき、音声処理部12bは、音声データベースD1を利用して、音データに音声に対応する文字データを文字データの確からしさを表すスコアとともに導出し、スコアが1位となった文字データのみを音声処理結果として出力する。なお、スコアが1位となった場合であっても、このスコアが所定の値未満の場合には、音声処理部12bは、文字データを出力しなくてもよい。すなわち、信頼性のない結果については、その後の処理に反映させる必要がないためである。
When sound data is input from the
検索部132bは、解析部131によって閾値以上の音量の音声データから抽出された非音声音がメモリに蓄積されると、メモリに記憶される非音声音の識別子を非音声音データベースD2から検索し、検索された非音声音の識別子を非音声音処理結果として重み付け処理部14bに出力する。具体的には、検索部132bは、非音声音データベースD2に含まれる各非音声音について、メモリに蓄積される非音声音との類似度を求め、この類似度をスコアとする。また検索部132bは、所定の抽出条件に該当する非音声音の識別子を全て、非音声音の識別子の候補として抽出し、例えば、図6(b)に一例を示すように、非音声音の識別子とスコアとを対応させて非音声音処理結果とする。
When the non-speech sound extracted from the sound data having a volume equal to or higher than the threshold by the
ここで、検索部132bが非音声音の識別子を抽出する条件としては、(1)スコアが特定の値以上(例えば、50以上)の非音声音の識別子を抽出、(2)スコアが上位所定数(例えば、3位以上)の非音声音の識別子を抽出、(3)スコアが1位のスコアから所定範囲内のスコア(例えば、1位のスコアからマイナス5以内のスコア)の文字データを抽出、等が考えられる。
Here, as conditions for the
一方、検索部132bは、非音声音の識別子が非音声音データベースD2から検索できない場合、非音声音処理結果を出力することなく、新たな非音声音がメモリに記憶されるまで待機する。すなわち、非音声音処理部13bは、非音声音データベースD2に含まれていない非音声音を新たに入力した場合でも、図1を用いて上述した非音声音処理部13のように非音声音データベースD2に追加することがない。
On the other hand, if the identifier of the non-speech sound cannot be retrieved from the non-speech sound database D2, the
判定部141bは、音声処理部12b及び非音声音処理部13bから入力される処理結果を待機しているが、判定部141と異なり、音声処理部12bから処理結果が入力されたタイミングを基準として計時を開始する。また、判定部141bは、非音声音処理部13bから処理結果が入力されると、音声処理部12bから処理結果を入力後、所定時間内であるか否かを判定し、所定時間内であるとき、音声処理部12bの処理結果である文字データ及び非音声音処理部13bの処理結果を選択部142bに出力する。
The
選択部142bは、判定部141bから文字データ及び非音声音処理結果が入力されると、記憶装置20から履歴データベースD4を読み出し、入力された文字データと、非音声音処理結果に含まれる各非音声音の識別子とに対応する頻度を選択し、この選択結果を文字データ及び非音声音処理結果とともに、演算部143bに出力する。
When the character data and the non-speech sound processing result are input from the
演算部143bは、選択部142bから文字データ、非音声音処理結果及び選択結果が入力されると、非音声音処理結果に含まれるスコアを重み付けする演算をし、入力した非音声音を決定する。具体的には、演算部143bは、各非音声音の識別子の候補についてスコアを重み付けして新たなスコアを演算し、新たなスコアが最も高い非音声音の識別子を、入力された非音声音の識別子と決定し、出力部15に出力する。また、演算部143bは、決定された非音声音の識別子、文字データ及び非音声音処理結果を更新部144bに出力する。
When the character data, the non-speech sound processing result, and the selection result are input from the
例えば、演算部143bは、文字データと各非音声音の識別子の組み合わせについて、式(2)のような数式で重み付けした新たなスコアを求める。式(2)においてr2は、予め定められる係数である。
For example, the
新たなスコア=スコア+頻度×r2 …(2)
ここで、非音声音の識別子に対応する文字データが関連付けられているとき、この文字データを出力するようにしてもよい。例えば、識別子「A音」に文字データ「チャイム」が関連付けられているとき演算部143bは文字データである「チャイム」を出力部15に出力し、識別子「B音」に文字データ「電話」が関連付けられているとき演算部143bは文字データである「電話」を出力部に出力する。
New score = score + frequency × r2 (2)
Here, when character data corresponding to the identifier of the non-speech sound is associated, this character data may be output. For example, when the character data “chime” is associated with the identifier “A sound”, the
なお、出力部15に出力するデータは視覚データであれば文字データに限られず、出力部15が複数のランプである場合には、各非音声音とランプとを対応付けているとき、非音声音の識別子が決定されると、入力された非音声音と対応するランプを点灯する等によって認識結果を出力してもよい。
The data to be output to the
更新部144bは、演算部143bから決定された非音声音の識別子、文字データ及び非音声音処理結果が入力されると、履歴データベースD4の頻度を更新する。具体的には、更新部144bは、文字データ及び演算部143bで決定された非音声音の識別子と関連付けられる頻度を高くし、文字データ及びと非音声音処理結果に含まれる決定された非音声音の識別子以外の非音声音の識別子と関連付けられる頻度を低くするように履歴データベースD4を更新する。
The
(非音声音処理部における処理)
図7に示すフローチャートを利用して、非音声音処理部13bにおける処理を説明する。非音声音処理部13bは、解析部131が入力部11を介して入力される音データを解析し、入力された音データの音量が閾値以上であるか否かを判定する(S30)。音データの音量が閾値以上であるとき(S30でYES)、解析部131は音データが非音声音であるか否かを判定する(S31)。ここで、閾値以上の音量の音データの入力がない場合(S30でNO)及び音声データに非音声音が含まれない場合(S31でNO)、ステップS30に戻り、処理を繰り返す。
(Processing in the non-voice sound processing unit)
Processing in the non-speech
閾値以上の音量の音データに非音声音が含まれるとき(S31でYES)、解析部131は、非音声音のメモリへの蓄積を開始する。また、検索部132bは、非音声音データベースD2に含まれる各非音声音とメモリに記憶される非音声音との類似度を求め、類似度をスコアとして比較する(S32)。
When non-speech sounds are included in the sound data having a volume equal to or higher than the threshold (YES in S31), the
非音声音データベースD2に入力された非音声音と類似の非音声音が含まれているとき(S33でYES)、解析部131は、入力される非音声音のメモリへの蓄積を終了し、検索部132bは、非音声音データベースD2に含まれる各非音声音とメモリに記憶される非音声音との比較を終了する(S34)。データの蓄積及び比較が終了して条件を満たす非音声音の識別子が抽出されると、検索部132bは、抽出された全ての非音声音の識別子及びスコアを含む非音声音処理結果を重み付け処理部14bに出力するとともに(S35)、メモリで蓄積するデータを破棄し(S38)、ステップS30に戻り、処理を繰り返す。
When the non-speech sound similar to the non-speech sound input to the non-speech sound database D2 is included (YES in S33), the
これに対し、非音声音データベースD2に入力された非音声音と類似の非音声音が含まれていないとき(S33でNO)、解析部131は、続いて入力される音データの音量が閾値未満か、または、非音声音のメモリへの蓄積時間が所定時間以上か否かを判定する(S36)。新たな音データの音量が閾値以上の場合又は入力される非音声音のメモリへの蓄積時間が所定時間内の場合、ステップS32に戻り、データの蓄積及び比較の処理を繰り返す。
On the other hand, when the non-speech sound similar to the non-speech sound input to the non-speech sound database D2 is not included (NO in S33), the
新たに入力する音データの音量が閾値未満となった場合又は蓄積時間が所定時間以上となったとき(S36でYES)、解析部131は、入力される非音声音のメモリへの蓄積を終了し、検索部132bは、非音声音データベースD2に含まれる各非音声音とメモリに記憶される非音声音との比較を終了する(S37)。その後、検索部132bは、メモリで蓄積されるデータを破棄する(S38)。
When the volume of newly input sound data is less than the threshold value or when the accumulation time is equal to or longer than the predetermined time (YES in S36), the
(重み付け処理部における処理)
図8に示すフローチャートを利用して、重み付け処理部14bにおける処理を説明する。重み付け処理部14bの判定部141は、音声処理部12b及び非音声音処理部13bからの処理結果の入力を待機しており、音声処理部12bから処理結果である文字データが入力されると(S40でYES)、計時を開始する(S41)。
(Processing in the weighting processing unit)
The process in the
その後、非音声音処理部13bから処理結果が入力されると(S41でYES)、判定部141bは、音声処理部12bから文字データを入力後、所定時間内であるか否かを判定する(S43)。
Thereafter, when a processing result is input from the non-speech
所定時間内であるとき(S43でYES)、選択部142bは、入力された文字データと非音声音処理結果に含まれる非音声音の識別子とに関連付けられる頻度が履歴データベースD4に含まれるか否かを判定する(S44)。
When it is within the predetermined time (YES in S43), the
入力された文字データ及び非音声音処理結果に含まれる非音声音の識別子と関連付けられる頻度が履歴データベースD4に含まれるとき(S44でYES)、演算部143bは、重み付け処理を実行する。すなわち、演算部143bは、非音声音処理結果に含まれる各非音声音の識別子の候補のスコアについて、重み値である頻度を利用して新たなスコアを求める(S45)。その後、演算部143cは、最もスコアが高くなった非音声音の識別子を入力された非音声音の識別子と決定し、この非音声音の識別子に対応する文字データを結果として出力する(S46)。
When the frequency associated with the input character data and the identifier of the non-speech sound included in the non-speech sound processing result is included in the history database D4 (YES in S44), the
一方、所定時間内でないとき(S43でNO)又は入力された文字データと非音声音処理結果に含まれる各非音声音の識別子に関連付けられる頻度が履歴データベースD4に含まれていないとき(S44でNO)、選択部142bは、非音声音処理結果に含まれるスコアが最も高い非音声音の識別子に対応する文字データを結果データとして出力する(S44)。
On the other hand, when it is not within the predetermined time (NO in S43) or when the frequency associated with the identifier of each non-speech sound included in the input character data and the non-speech sound processing result is not included in the history database D4 (in S44) NO), the
また、更新部144bは、音声に対応する文字データが決定されると、履歴データベースD4に含まれる頻度を更新する(S47)。
Further, when the character data corresponding to the voice is determined, the updating
上述したように、第2実施形態に係る音認識装置1bは、非音声音を視覚データに変換する際に、一定時間内に取得された音声を利用する。したがって、音声の取得から一定時間内に取得される非音声音を予測することが可能となり、非音声音の変換の精度を向上させることができる。また、音認識装置1bで利用される履歴データベースD4は利用に応じて自動で更新されるため、利用者の登録作業等の処理がなくても音声認識の精度が向上させる。
As described above, the
〈第3実施形態〉
第3実施形態に係る音認識装置は、音データに含まれる非音声音を視覚データに変換する際、非音声音の入力タイミングから過去の所定時間内(例えば、3分前まで)に入力された非音声音の認識結果を利用する。ここでも、人間が声によって発した音声以外の音を「非音声音」とする。過去に入力された非音声音の認識結果を非音声音の視覚データへの変換に利用することで、非音声音の視覚データへの変換の精度を向上させることができる。
<Third Embodiment>
In the sound recognition apparatus according to the third embodiment, when converting non-sound sound included in sound data into visual data, the sound recognition apparatus is input within a predetermined time in the past (for example, up to 3 minutes before) from the input timing of the non-sound sound. Use non-speech sound recognition results. Here again, a sound other than a voice uttered by a human voice is referred to as a “non-voice sound”. By using the recognition result of the non-speech sound input in the past for the conversion of the non-speech sound into the visual data, the accuracy of the conversion of the non-sound sound into the visual data can be improved.
図9に示すように、第3実施形態に係る音認識装置1cは、図1を用いて上述した第1実施形態に係る音認識装置1aと比較して、音声処理部12を有さず、非音声音処理部13に代えて非音声音処理部13cを有し、重み付け処理部14に代えて重み付け処理部14cを有している点で異なる。また、音認識装置1cは、音認識装置1aと比較して、記憶装置20において、音認識プログラムP1に代えて音認識プログラムP3を記憶し、履歴データベースD3に代えて履歴データベースD5を記憶している。すなわち、音認識装置1cでは、記憶装置20に記憶されている音認識プログラムP3が実行されることで、CPU10が非音声音処理部13b及び重み付け処理部14bとして処理が実行される。
As shown in FIG. 9, the
履歴データベースD5は、第1の非音声音の識別子と第2の非音声音の識別子とに、非音声音の決定に利用する重み値を関連付けるデータである。ここでは、第1の非音声音の入力後所定時間内(例えば、3分以内)に第2の非音声音が入力された頻度を重み値として利用している。 The history database D5 is data that associates the first non-speech sound identifier and the second non-speech sound identifier with a weight value used to determine the non-speech sound. Here, the frequency at which the second non-voice sound is input within a predetermined time (for example, within 3 minutes) after the input of the first non-voice sound is used as a weight value.
図10(a)に示す履歴データベースD5では、識別子「F音」が付された非音声音を入力後、識別子「A音」が付された非音声音であるチャイムの音が入力された頻度が40%、識別子「B音」が付された電話の音が入力された頻度が35%であることを示している。また、識別子「D音」が付された非音声音を入力後、識別子「C音」が付された非音声音が入力された頻度が30%、識別子「D音」が付された非音声音が入力された頻度が25%、識別子「E音」が付された非音声音が入力された頻度が10%であることを示している。 In the history database D5 shown in FIG. 10A, the frequency at which a chime sound, which is a non-speech sound with the identifier “A sound”, is input after the non-speech sound with the identifier “F sound” is input. Indicates that the frequency of input of the sound of the telephone with the identifier “B sound” is 35%. In addition, after inputting a non-sound sound with the identifier “D sound”, the frequency of inputting the non-sound sound with the identifier “C sound” is 30%, and the non-sound with the identifier “D sound” is added. This indicates that the frequency at which a voice sound is input is 25%, and the frequency at which a non-speech sound with an identifier “E sound” is input is 10%.
検索部132cは、解析部131によって閾値以上の音量の音データから抽出された非音声音がメモリに蓄積されると、メモリに記憶される非音声音の識別子を非音声音データベースD2から検索し、検索された非音声音の識別子を非音声音処理結果として重み付け処理部14cに出力する。具体的には、検索部132cは、非音声音データベースD2に含まれる各非音声音について、メモリに蓄積される非音声音との類似度を求め、この類似度をスコアとする。また検索部132cは、所定の抽出条件に該当する非音声音の識別子を全て、非音声音の識別子の候補として抽出し、例えば、図10(b)に一例を示すように、非音声音の識別子とスコアとを対応させて非音声音処理結果とする。
When the non-speech sound extracted from the sound data having a volume equal to or higher than the threshold by the
ここで、検索部132cが非音声音の識別子を抽出する条件としては、(1)スコアが特定の値以上(例えば、50以上)の非音声音の識別子を抽出、(2)スコアが上位所定数(例えば、3位以上)の非音声音の識別子を抽出、(3)スコアが1位のスコアから所定範囲内のスコア(例えば、1位のスコアからマイナス5以内のスコア)の文字データを抽出、等が考えられる。
Here, as conditions for the
一方、検索部132cは、非音声音の識別子が非音声音データベースD2から検索できない場合、非音声音処理結果を出力することなく、新たな非音声音がメモリに記憶されるまで待機する。すなわち、非音声音処理部13cは、非音声音データベースD2に含まれていない非音声音を新たに入力した場合でも、図1を用いて上述した非音声音処理部13のように非音声音データベースD2に追加することがない。
On the other hand, if the identifier of the non-speech sound cannot be retrieved from the non-speech sound database D2, the
判定部141cは、非音声音処理部13cから入力される非音声音処理結果を待機するとともに、過去に入力された非音声音の識別子をメモリで記憶しており、新たな非音声音処理結果が入力されると、前回、非音声音処理部13cから非音声音処理結果を入力後、所定時間内であるか否かを判定し、所定時間内であるとき、メモリで記憶される非音声音の識別子(第1の非音声音の識別子)と、新たに入力した非音声音処理結果を選択部142cに出力する。また、判定部141cは、非音声音処理部13cから新たに非音声音処理結果が入力されたタイミングを基準として新たに計時を開始する。
The
選択部142cは、判定部141bから前回入力された非音声音の識別子及び非音声音処理結果を入力すると、記憶装置20から履歴データベースD4を読み出し、前回入力された非音声音の識別子及び非音声音処理部に含まれる各非音声音の識別子(第2の非音声音の識別子)に対応する頻度を選択し、この選択結果を前回入力された非音声音の識別子及び非音声音処理結果とともに、演算部143cに出力する。
When the
演算部143cは、選択部142cから、前回入力された非音声音の識別子、非音声音処理部及び選択結果が入力されると、非音声音処理結果に含まれるスコアを重み付けする演算をし、入力した非音声音を決定する。具体的には、演算部143cは、非音声音の識別子の候補についてスコアを重み付けして新たなスコアを演算し、新たなスコアが最も高い非音声音の識別子を、入力された非音声音の識別子と決定し、出力部15に出力する。また、演算部143cは、決定された非音声音の識別子、前回入力した非音声音の識別子及び非音声音処理結果を更新部144cに出力する。また、演算部143cは、メモリで記憶される第1の非音声音の識別子を前回入力した非音声音の識別子を決定された非音声音の識別子に書き換える。
When the identifier of the non-speech sound input last time, the non-speech sound processing unit, and the selection result are input from the
例えば、演算部143cは、前回入力した非音声音の識別子と非音声音処理結果に含まれる各非音声音の識別子について、式(3)のような数式で重み付けした新たなスコアを求める。式(3)においてr3は、予め定められる係数である。
For example, the
新たなスコア=スコア+頻度×r3 …(3)
ここで、非音声音の識別子に対応する文字データが関連付けられているとき、この文字データを出力するようにしてもよい。例えば、識別子「A音」に文字データ「チャイム」が関連付けられているとき演算部143cは文字データである「チャイム」を出力部15に出力し、識別子「B音」に文字データ「電話」が関連付けられているとき演算部143cは文字データである「電話」を出力部に出力する。
New score = score + frequency × r3 (3)
Here, when character data corresponding to the identifier of the non-speech sound is associated, this character data may be output. For example, when the character data “chime” is associated with the identifier “A sound”, the
なお、出力部15に出力するデータは視覚データであれば文字データに限られず、出力部15が複数のランプである場合には、各非音声音とランプとを対応付けているとき、非音声音の識別子が決定されると、入力された非音声音と対応するランプを点灯する等によって認識結果を出力してもよい。
The data to be output to the
更新部144cは、演算部143cから今回入力した非音声音に対して決定された非音声音の識別子、前回入力された非音声音の識別子及び非音声音処理結果が入力されると、履歴データベースD5の頻度を更新する。具体的には、更新部144cは、前回入力された非音声音の識別子及び今回決定された非音声音の識別子と関連付けられる頻度を高くし、前回入力された非音声音の識別子及び非音声音処理結果に含まれる今回決定された非音声音以外の非音声音の識別子と関連付けられる頻度を低くするように履歴データベースD5を更新する。
The
(非音声音処理部における処理)
図11に示すフローチャートを利用して、非音声音処理部13cにおける処理を説明する。非音声音処理部13cは、解析部131が入力部11を介して入力される音データを解析し、入力された音データの音量が閾値以上であるか否かを判定する(S50)。音データの音量が閾値以上であるとき(S50でYES)、解析部131は音データが非音声音であるか否かを判定する(S51)。ここで、閾値以上の音量の音データの入力がない場合(S50でNO)及び音データに非音声音が含まれない場合(S51でNO)、ステップS50に戻り、処理を繰り返す。
(Processing in the non-voice sound processing unit)
Processing in the non-speech
閾値以上の音量の音データに非音声音が含まれるとき(S51でYES)、解析部131は、非音声音のメモリへの蓄積を開始する。また、検索部132cは、非音声音データベースD2に含まれる各非音声音とメモリに記憶される非音声音との類似度を求め、類似度をスコアとして比較する(S52)。
When non-speech sounds are included in sound data having a volume equal to or higher than the threshold (YES in S51), the
非音声音データベースD2に入力された非音声音と類似の非音声音が含まれているとき(S53でYES)、解析部131は、入力される非音声音のメモリへの蓄積を終了し、検索部132cは、非音声音データベースD2に含まれる各非音声音とメモリに記憶される非音声音との比較を終了する(S54)。データの蓄積及び比較が終了して条件を満たす非音声音の識別子が抽出されると、検索部132bは、抽出された全ての非音声音の識別子及びスコアを含む非音声音処理結果を重み付け処理部14bに出力するとともに(S55)、メモリで蓄積するデータを破棄し(S58)、ステップS50に戻り、処理を繰り返す。
When the non-speech sound similar to the non-speech sound input to the non-speech sound database D2 is included (YES in S53), the
これに対し、非音声音データベースD2に入力された非音声音と類似の非音声音が含まれていないとき(S53でNO)、解析部131は、続いて入力される音データの音量が閾値未満か、または、非音声音のメモリへの蓄積時間が所定時間以上か否かを判定する(S56)。新たな音データの音量が閾値以上の場合又は入力される非音声音のメモリへの蓄積時間が所定時間内の場合、ステップS52に戻り、データの蓄積及び比較の処理を繰り返す。
On the other hand, when the non-speech sound similar to the non-speech sound input to the non-speech sound database D2 is not included (NO in S53), the
新たに入力する音データの音量が閾値未満となった場合又は蓄積時間が所定時間以上となったとき(S56でYES)、解析部131は、入力される非音声音のメモリへの蓄積を終了し、検索部132cは、非音声音データベースD2に含まれる各非音声音とメモリに記憶される非音声音との比較を終了する(S57)。その後、検索部132cは、メモリで蓄積するデータを破棄する(S58)。
When the volume of newly input sound data is less than the threshold value or when the accumulation time is equal to or longer than the predetermined time (YES in S56), the
(重み付け処理部における処理)
図12に示すフローチャートを利用して、重み付け処理部14cにおける処理を説明する。重み付け処理部14cの判定部141cは、非音声音処理部13cからの非音声音処理結果の入力を待機しており、非音声音処理部13cから非音声音処理結果が入力されると(S60でYES)、計時を開始する(S61)。また、判定部141cは、前回の非音声音処理結果を入力後、所定時間内であるか否かを判定する(S62)。
(Processing in the weighting processing unit)
The processing in the
所定時間内であるとき(S62でYES)、選択部142cは、前回入力した非音声音の識別子と新たに入力された非音声音処理結果に含まれる各非音声音の識別子とに関連付けられる頻度が履歴データベースD5に含まれるか否かを判定する(S63)。前回入力した非音声音の識別子と新たに入力された非音声音処理結果に含まれる非音声音の識別子とに関連付けられる頻度が履歴データベースD5に含まれるとき(S63でYES)、演算部143cは、重み付け処理を実行する。すなわち、演算部143cは、新たに入力した非音声音処理部に含まれる各非音声音の識別子の候補のスコアについて、重み値である頻度を利用して新たなスコアを求める(S64)。その後、演算部143cは、最もスコアが高くなった非音声音の識別子を入力された非音声音の識別子と決定し、この非音声音に対応する文字データを結果として出力する(S65)。
When it is within the predetermined time (YES in S62), the
一方、所定時間内でないとき(S62でNO)又は前回入力された非音声音の識別子及び新たに入力された非音声音処理結果に含まれる非音声音の識別子と関連付けられる頻度が履歴データベースD5に含まれないとき(S63でNO)、選択部142bは、非音声音処理結果に含まれるスコアが最も高い非音声音の識別子に対応する文字データを結果データとして出力する(S65)。
On the other hand, when it is not within the predetermined time (NO in S62) or the frequency associated with the identifier of the non-speech sound input last time and the non-speech sound identifier included in the newly input non-speech sound processing result is stored in the history database D5. When not included (NO in S63), the
また、更新部144cは、非音声音が決定されると、履歴データベースD5に含まれる頻度を更新する(S66)。
In addition, when the non-speech sound is determined, the
上述したように、第3実施形態に係る音認識装置1cは、非音声音を視覚データに変換する際に、過去に取得された非音声音を利用する。したがって、非音声音の取得から一定時間内に取得される非音声音を予測することが可能となり、非音声音の変換の精度を向上させることができる。また、音認識装置1cで利用される履歴データベースD5は利用に応じて自動で更新されるため、利用者の登録作業等の処理がなくても音声認識の精度が向上させる。
As described above, the
以上、実施形態を用いて本発明を詳細に説明したが、本発明は本明細書中に説明した実施形態に限定されるものではない。本発明の範囲は、特許請求の範囲の記載及び特許請求の範囲の記載と均等の範囲により決定されるものである。 As mentioned above, although this invention was demonstrated in detail using embodiment, this invention is not limited to embodiment described in this specification. The scope of the present invention is determined by the description of the claims and the scope equivalent to the description of the claims.
1a,1b,1c…音認識装置
10…CPU
11…入力部
12,12b…音声処理部
13,13b,13c…非音声音処理部
131…解析部
132,132b,132c…検索部
133…追加部
14,14b,14c…重み付け処理部
141,141b,141c…判定部
142,142b,142c…選択部
143,143b,143c…演算部
144,144b,144c…更新部
15…出力部
20…記憶装置
D1…音声データベース
D2…非音声音データベース
D3,D4,D5…履歴データベース
1a, 1b, 1c ...
DESCRIPTION OF
Claims (7)
音データの入力があった場合に、入力された音データが音声の特徴を持たない非音声音かどうかを判定するとともに、前記入力された信号が非音声音であった場合に、前記非音声音に対して前記識別子を対応付ける非音声処理部と、
前記音データの入力があった場合に、入力された音データに含まれる音声の種類の候補を出力する音声処理部と、
前記非音声処理部において、前記非音声音に対して識別子が対応付けられ、かつ、前記非音声音に対して前記識別子が対応付けられてから所定時間以内に前記音声処理部から前記音声の種類の候補が入力された場合、前記履歴データベースに基づいて、前記候補に対して重み付けをし、前記重み付けされた音声の種類の候補に基づいて前記音声の種類を決定する演算部と、
を備えることを特徴とする音認識装置。 A sound recognition apparatus using a history database in which an identifier for identifying a non-sound sound is associated with a frequency at which a predetermined type of sound sound has appeared within a predetermined time from the appearance of the non-sound sound,
When sound data is input, it is determined whether or not the input sound data is a non-speech sound having no voice characteristics, and when the input signal is a non-speech sound, the non-sound sound A non-speech processing unit that associates the identifier with a voice sound;
A voice processing unit that outputs a candidate of a type of voice included in the input sound data when the sound data is input;
In the non-speech processing unit, an identifier is associated with the non-speech sound, and the type of sound is transmitted from the speech processing unit within a predetermined time after the identifier is associated with the non-speech sound. A calculation unit that weights the candidates based on the history database and determines the type of the voice based on the weighted voice type candidates;
A sound recognition apparatus comprising:
前記音声の種類を文字データとして、記憶している
ことを特徴とする請求項1または2のいずれかに記載の音認識装置。 The history database is
The sound recognition apparatus according to claim 1, wherein the voice type is stored as character data.
前記非音声音の前記特徴量データの中から前記判定した非音声音に一致する前記特徴量データを検索する検索部とを有し、
前記検索部の検索結果により、前記非音声音に対して識別子を対応付けることを特徴とする請求項1から3のいずれか記載の音認識装置。 The non-speech sound processing unit is a non-speech sound database that stores the identifier of the non-speech sound and feature data that can identify the sound;
A search unit that searches the feature amount data matching the determined non-speech sound from the feature amount data of the non-speech sound;
4. The sound recognition apparatus according to claim 1, wherein an identifier is associated with the non-speech sound based on a search result of the search unit.
を特徴とする請求項3に記載の音認識装置。 When the input signal is a non-speech sound, the non-speech sound processing unit starts storing the non-speech sound in a memory, and the signal input by the search unit and the sound data If the search unit cannot retrieve the feature amount data that matches the determined non-speech sound within a predetermined period, the stored non-speech sound is associated with a new identifier of the non-speech sound. And having an additional part to add to the non-voice sound database;
The sound recognition apparatus according to claim 3.
音データの入力があった場合に、入力された音データが音声の特徴を持つ音声音かどうかを判定するとともに、前記入力された信号が音声音であった場合に、前記音声音に対して種類を対応付ける音声処理部と、
音データの入力があった場合に、音声の特徴を持たない非音声音が入力されたかを判定するとともに、判定結果が正の場合に、前記非音声音データベースに基づいて前記非音声音の識別子の候補を出力する前記非音声音処理部と、
前記音声処理部において、前記音声音に対して種類が対応付けられ、かつ、前記音声音に対して種類が対応付けられてから所定時間以内に前記非音声処理部から前記音声の識別子の候補が入力された場合、前記履歴データベースに基づいて、前記候補に対して重み付けをし、前記重み付けされた非音声音の識別この候補に基づいて非音声音の識別子を決定する演算部と、
を備えることを特徴とする音認識装置。 Sound using a history database associating the type of voice sound with the frequency of occurrence of a predetermined non-voice sound within a predetermined time from the voice sound, and a non-voice sound database associating a non-voice identifier with non-sound sound data A recognition device,
When sound data is input, it is determined whether or not the input sound data is a sound sound having a sound characteristic, and when the input signal is a sound sound, A voice processing unit for associating types,
When sound data is input, it is determined whether a non-speech sound having no sound characteristics is input. If the determination result is positive, the identifier of the non-speech sound is determined based on the non-speech sound database. The non-speech sound processing unit for outputting the candidates of
In the speech processing unit, a candidate for the identifier of the speech from the non-speech processing unit is within a predetermined time after the type is associated with the speech sound and the type is associated with the speech sound. A calculation unit that weights the candidates based on the history database and identifies the weighted non-speech sounds based on the candidates when input,
A sound recognition apparatus comprising:
入力があった場合に、入力された信号が音声の特徴を持たない非音声音かどうかを判定するとともに、前記前記入力された信号が非音声音であった場合に、前記非音声音に対して識別子を対応付ける非音声音処理部と、
第1の前記非音声音に対して識別子が対応付けられた場合、第2の前記非音声音に対して識別子が対応付けられてから所定時間以内であるかどうかを判定し、正である場合、前記履歴データベースに基づいて、前記第1の非音声音の識別子を決定する演算部と、
を備えることを特徴とする音認識装置。 A history database associating a first non-speech sound identifier with a frequency at which a second non-speech sound identifier appears within a predetermined time from the first non-speech sound;
When there is an input, it is determined whether or not the input signal is a non-speech sound having no voice characteristics, and when the input signal is a non-speech sound, A non-speech sound processing unit for associating the identifier,
When an identifier is associated with the first non-speech sound, it is determined whether it is within a predetermined time since the identifier is associated with the second non-speech sound. A calculation unit for determining an identifier of the first non-speech sound based on the history database;
A sound recognition apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012273275A JP2014119536A (en) | 2012-12-14 | 2012-12-14 | Sound recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012273275A JP2014119536A (en) | 2012-12-14 | 2012-12-14 | Sound recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014119536A true JP2014119536A (en) | 2014-06-30 |
Family
ID=51174433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012273275A Pending JP2014119536A (en) | 2012-12-14 | 2012-12-14 | Sound recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014119536A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022162525A (en) * | 2021-04-12 | 2022-10-24 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Voice recognition method and device |
-
2012
- 2012-12-14 JP JP2012273275A patent/JP2014119536A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022162525A (en) * | 2021-04-12 | 2022-10-24 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Voice recognition method and device |
JP7362996B2 (en) | 2021-04-12 | 2023-10-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Speech recognition method and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4195428B2 (en) | Speech recognition using multiple speech features | |
KR100755677B1 (en) | Apparatus and method for dialogue speech recognition using topic detection | |
JP5229216B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP6585112B2 (en) | Voice keyword detection apparatus and voice keyword detection method | |
WO2021017612A1 (en) | Question and answer method and apparatus based on speech analysis, device and storage medium | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
CN111105785B (en) | Text prosody boundary recognition method and device | |
JP6011565B2 (en) | Voice search device, voice search method and program | |
EP3314606A1 (en) | Language model speech endpointing | |
JP4987682B2 (en) | Voice chat system, information processing apparatus, voice recognition method and program | |
JP2011065120A (en) | Voice recognition of all languages, and single letter input method utilizing voice recognition | |
WO2020119432A1 (en) | Speech recognition method and apparatus, and device and storage medium | |
JP2002366187A (en) | Device and method for recognizing voice, program and recording medium | |
JP2015219583A (en) | Topic determination device, utterance device, method, and program | |
JP2014235345A (en) | Voice processing device, method and program | |
JP6111802B2 (en) | Spoken dialogue apparatus and dialogue control method | |
WO2007005098A2 (en) | Method and apparatus for generating and updating a voice tag | |
CN113314119B (en) | Voice recognition intelligent household control method and device | |
Mantena et al. | Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios | |
KR20180038707A (en) | Method for recogniting speech using dynamic weight and topic information | |
KR20060070605A (en) | Using domain dialogue model and language model in intelligent robot speech recognition service device and method | |
JP2020034683A (en) | Voice recognition device, voice recognition program and voice recognition method | |
JP5723711B2 (en) | Speech recognition apparatus and speech recognition program | |
JP2014206642A (en) | Voice recognition device and voice recognition program | |
JP6233867B2 (en) | Dictionary registration system for speech recognition, speech recognition system, speech recognition service system, method and program |