JP6972287B2 - Speech recognition device, speech recognition method and speech recognition program - Google Patents
Speech recognition device, speech recognition method and speech recognition program Download PDFInfo
- Publication number
- JP6972287B2 JP6972287B2 JP2020200894A JP2020200894A JP6972287B2 JP 6972287 B2 JP6972287 B2 JP 6972287B2 JP 2020200894 A JP2020200894 A JP 2020200894A JP 2020200894 A JP2020200894 A JP 2020200894A JP 6972287 B2 JP6972287 B2 JP 6972287B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- utterance
- time
- input
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明の実施形態は、音声認識方法及びこの方法で音声認識を行う音声認識装置並びにコンピュータを当該音声認識装置として機能させるための音声認識プログラムに関する。 An embodiment of the present invention relates to a voice recognition method, a voice recognition device that performs voice recognition by this method, and a voice recognition program for making a computer function as the voice recognition device.
近年、音声認識装置を搭載し、ユーザが外部から音声により所望の操作内容を与えると、その音声を認識して所望の操作内容に応じた動作を実行する電子機器がある。このような電子機器は、通常、発話ボタンを備え、音声認識装置は、この発話ボタンをユーザが操作したことを契機に音声の入力を受け付ける。しかし、音声入力を受け付ける前にユーザが発声したために音声信号の先頭部分を記録できず、音声認識装置が誤認識を引き起こすことがある。 In recent years, there is an electronic device equipped with a voice recognition device, which recognizes the voice and executes an operation according to the desired operation content when the user gives a desired operation content by voice from the outside. Such an electronic device usually includes an utterance button, and the voice recognition device accepts a voice input when the user operates the utterance button. However, since the user utters a voice before accepting the voice input, the head portion of the voice signal cannot be recorded, and the voice recognition device may cause erroneous recognition.
このような不具合を防止するために、発話ボタンが操作されてから音声入力の受付が可能になるまでの間、表示画面に所定の画像を表示させてユーザに発声開始のタイミングを知らせる技術が知られている。しかしこの技術を適用できるのは表示画面を有する電子機器に限られる上、画像を表示させるために電子機器を制御するプロセッサの処理負荷が大きくなるという問題がある。 In order to prevent such problems, we know the technology to display a predetermined image on the display screen and notify the user of the timing to start utterance from the time the utterance button is operated until the voice input can be accepted. Has been done. However, this technology can be applied only to an electronic device having a display screen, and there is a problem that the processing load of a processor that controls the electronic device for displaying an image becomes large.
本発明の実施形態が解決しようとする課題は、ユーザに発声開始のタイミングを知らせることなく、音声信号の先頭部分を記録できなかったことによる誤認識を低減できる音声認識技術を提供しようとするものである。 An object to be solved by the embodiment of the present invention is to provide a voice recognition technique capable of reducing erroneous recognition due to failure to record the head portion of a voice signal without notifying the user of the timing of starting vocalization. Is.
一実施形態において、音声認識装置は、記録部と、受付手段と、認識手段と、修正手段とを備える。記録部は、音声入力手段を介して入力された音声信号を記録する。受付手段は、音声入力手段からの音声入力開始指示を受け付ける。認識手段は、入力開始指示を受け付けた後に記録部に記録された音声信号から音声発話を認識する。修正手段は、認識手段で認識した音声発話の先頭の語が母音である場合、その母音に子音を順次付加した単語と音声発話の2番目以降の単語との単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する。 In one embodiment, the speech recognition apparatus includes a recording unit, a receiving unit, a recognition unit, and amendments means. The recording unit records a voice signal input via the voice input means. The receiving means receives a voice input start instruction from the voice input means. Recognition means, you recognizing voice uttered from the sound signal recorded in the recording unit after receiving the input start instruction. Amendments means, if the first word of the speech utterance which has been recognized by the recognition means is a vowel, the probability for the connection patterns of words between the second and subsequent words in the words and utterances are sequentially added consonant to the vowel Calculate and correct to the voice utterance of the maximum probability connection pattern.
以下、ユーザに発声開始のタイミングを知らせることなく、音声信号の先頭部分が記録できなかったことによる誤認識を低減できる音声認識装置の実施形態について、図面を用いて説明する。 Hereinafter, an embodiment of a voice recognition device capable of reducing erroneous recognition due to failure to record the head portion of a voice signal without notifying the user of the timing of starting voice will be described with reference to the drawings.
図1は、本実施形態における音声認識装置10の要部構成を示すブロック図である。音声認識装置10は、音声入力の開始指示を受け付けると、開始指示を受け付けた後に入力された音声信号から音声発話を認識する。そして音声認識装置10は、開始指示を受け付けてから音声信号が入力されるまでの時間により音声発話の認識結果を修正するか否かを判定し、修正する場合、認識された音声発話を修正する。このような音声認識装置10は、例えば飲食店等で利用される携帯型の注文端末、工業機器の保守作業等で利用される保守記録端末、等の電子機器に組み込まれ、ユーザの発話による入力を支援する機能を果たすものである。
FIG. 1 is a block diagram showing a configuration of a main part of the
図1に示すように音声認識装置10は、プロセッサ11、メインメモリ12、補助記憶デバイス13、時計部14、デジタイズ部15、入力ポート16、複数のデバイスインターフェース17,18及び出力部19等を備える。また音声認識装置10は、アドレスバス,データバス等を含むバスラインBLを備えており、このバスラインBLに、プロセッサ11、メインメモリ12、補助記憶デバイス13、時計部14、デジタイズ部15、入力ポート16、デバイスインターフェース17,18及び出力部19が接続されている。
As shown in FIG. 1, the
デジタイズ部15は、音声入力手段であるマイクロフォン20を接続し、マイクロフォン20を介して入力されたアナログの音声信号をデジタルの音声信号に変換する。マイクロフォン20は、音声認識装置10を搭載した電子機器に内蔵されていてもよいし、着脱自在に外部接続されるものであってもよい。なお、マイクロフォン20がデジタルデータの音声信号を出力するタイプのものである場合には、デジタイズ部15を省略できる。
The digitizing
入力ポート16は、音声入力の開始指示手段である発話ボタン30を接続し、発話ボタン30のオン信号を入力する。ユーザは、マイクロフォン20に向かって発話する間、発話ボタン30を押下する。発話ボタン30は、押下されている間オン信号を出力する。発話ボタン30は、1回目の押下でオン信号を出力し、2回目の押下でオン信号を停止するタイプのものであってもよい。
The
デバイスインターフェース17は、入力デバイス40を接続し、所定のプロトコルに従い入力デバイス40から入力データを取り込む。入力デバイス40は、キーボード、タッチパネル、ポインティングデバイス等である。デバイスインターフェース18は、表示デバイス50を接続し、所定のプロトコルに従い表示デバイス50に表示データを出力する。表示デバイス50は、液晶ディスプレイ、プラズマディスプレイ、EL(Electro Luminescent)ディスプレイ等である。なお、デバイスインターフェース17,18に接続されるデバイスは、入力デバイス40及び表示デバイス50に限定されるものではない。例えば表示デバイス50の代わりにプリンタが接続されてもよい。また、入力デバイス40の代わりにバーコードリーダ、RFIDリーダライタ、カードリーダライタ等が接続されてもよい。
The
因みに、音声入力手段であるマイクロフォン20と、開始指示手段である発話ボタン30と、入力デバイス40と、表示デバイス50とは、音声認識装置10を搭載した電子機器に設けられる。その場合において、発話ボタン30は、入力デバイス40の一種であるキーボードまたはタッチパネルに設けられていてもよい。
Incidentally, the
音声認識装置10は、プロセッサ11、メインメモリ12及び補助記憶デバイス13と、これらを接続するバスラインBLとによってコンピュータを構成する。
プロセッサ11は、上記コンピュータの中枢部分に相当する。プロセッサ11は、オペレーティングシステムやアプリケーションプログラムに従って、音声認識装置10としての機能を実現するべく各部を制御する。
The
The
メインメモリ12は、上記コンピュータの主記憶部分に相当する。メインメモリ12は、不揮発性のメモリ領域と揮発性のメモリ領域とを含む。メインメモリ12は、不揮発性のメモリ領域ではオペレーティングシステムやアプリケーションプログラムを記憶する。またメインメモリ12は、プロセッサ11が各部を制御するための処理を実行する上で必要なデータを不揮発性または揮発性のメモリ領域で記憶する。
The
メインメモリ12は、揮発性のメモリ領域を、マイクロフォンを介して入力された音声信号の記録部として使用する。すなわちメインメモリ12は、デジタイズ部15でデジタルデータに変換された音声信号を所定のバッファリング単位で繰り返し上書き保存する領域を有する。なお、この記録部としての領域は、補助記憶デバイス13に形成されていてもよい。
The
補助記憶デバイス13は、上記コンピュータの補助記憶部分に相当する。例えばEEPROM(Electric Erasable Programmable Read-Only Memory)、HDD(Hard Disc Drive)、SSD(Solid State Drive)等が補助記憶デバイス13として使用される。補助記憶デバイス213は、プロセッサ11が各種の処理を行う上で使用するデータや、プロセッサ11での処理によって生成されたデータを保存する。補助記憶デバイス13は、上記のアプリケーションプログラムを記憶する場合もある。
The
補助記憶デバイス13は、音声認識に必要な単語辞書ファイル131及び言語辞書ファイル132を記憶する。単語辞書ファイル131は、図2にその一例を示すように、種々の単語とその読み仮名とを予め記録したデータファイルである。例えば単語辞書ファイル131Aは、単語「焼き」、「秋」、「肉」、「行く」、「柿」、「咲き」、「滝」、「泣き」、「破棄」、「薪」、「脇」に対してそれぞれ読み仮名「yaki」、「aki」、「niku」、「iku」、「kaki」、「saki」、「taki」、「naki」、「haki」、「maki」、「waki」を記録する。
The
言語辞書ファイル132は、図3(a),(b)にその一例を示すように、種々の単語同士の繋がりの確率を予め記録したデータファイルである。例えば、言語辞書ファイル132Aは、単語「焼き」の後に、単語「焼き」が繋がる確率として“0.1”を、単語「秋」が繋がる確率として“0.1”を、単語「肉」が繋がる確率として“0.5”を、単語「行く」が繋がる確率として“0.1”を記録する。同様に言語辞書ファイル132Aは、単語「秋」の後に、単語「焼き」が繋がる確率として“0.1”を、単語「秋」が繋がる確率として“0.1”を、単語「肉」が繋がる確率として“0.1”を、単語「行く」が繋がる確率として“0.2”を記録する。
The language dictionary file 132 is a data file in which the probabilities of connections between various words are recorded in advance, as shown in FIGS. 3 (a) and 3 (b). For example, in the
一方、言語辞書ファイル132Bは、単語「行く」の前に、単語「柿」が繋がる確率として“0.2”を、単語「咲き」が繋がる確率として“0.1”を、単語「滝」が繋がる確率として“0.1”を、単語「泣き」が繋がる確率として“0.1”を、単語「破棄」が繋がる確率として“0.1”を、単語「薪」が繋がる確率として“0.1” 、単語「脇」が繋がる確率として“0.1”を記録する。同様に言語辞書ファイル132Bは、単語「肉」の前に、単語「柿」が繋がる確率として“0.3”を、単語「咲き」が繋がる確率として“0.1”を、単語「滝」が繋がる確率として“0.1”を、単語「泣き」が繋がる確率として“0.1”を、単語「破棄」が繋がる確率として“0.1”を、単語「薪」が繋がる確率として“0.1” 、単語「脇」が繋がる確率として“0.2”を記録する。
On the other hand, in the
図1に説明を戻す。
時計部14は、音声認識装置10の時刻情報源として機能する。プロセッサ11は、時計部14によって計時される時刻情報を基に、現在の日付及び時刻を計時する。なお、時計部14は、音声認識装置10が搭載された電子機器に備えられているものを兼用してもよい。
The explanation is returned to FIG.
The
出力部19は、この音声認識装置10で認識された結果である音声発話のデータを外部へ出力する。データの出力先は、例えばこの音声認識装置10を搭載した電子機器の制御ユニットである。
The
かかる構成の音声認識装置10において、プロセッサ11は、押下検知部111、閾値判定部112、音声認識部113、修正部114及び出力制御部115としての機能を有している。これらの機能は、音声認識プログラムに従ってプロセッサ11が情報処理を行うことにより実現される。音声認識プログラムは、メインメモリ12又は補助記憶デバイス13に記憶されている。なお、音声認識プログラムがメインメモリ12又は補助記憶デバイス13に予め記憶されていなくてもよい。音声認識装置10を搭載した電子機器が備える書き込み可能な記憶デバイスに、この電子機器とは個別に譲渡された音声認識プログラムがユーザなどの操作に応じて書き込まれてもよい。音声認識プログラムの譲渡は、リムーバブルな記録媒体に記録して、あるいはネットワークを介した通信により行うことができる。記録媒体は、CD−ROM,メモリカード等のようにプログラムを記憶でき、かつ装置が読み取り可能であれば、その形態は問わない。
In the
図4は、プロセッサ11が音声認識プログラムに従って実行する情報処理手順を示す流れ図である。なお、図4に示すとともに以下に説明する処理の内容は一例であって、同様な結果を得ることが可能であればその処理手順及び処理内容は特に限定されるものではない。
FIG. 4 is a flow chart showing an information processing procedure executed by the
音声認識プログラムが開始されると、プロセッサ11は、Act1として発話ボタン30が押下されるのを待ち受ける。入力ポート16を介してオン信号が入力されると、プロセッサ11は、発話ボタン30が押下されたことを検知する(Act1にてYES)。そしてプロセッサ11は、Act2として時計部14で計時されている時刻を検知時刻Pとしてメインメモリ12の所定領域に記憶させる(第1時刻取得手段)。ここに、プロセッサ11は、Act1及び2の処理を実行することにより、押下検知部(受付手段)111として機能する。
When the voice recognition program is started, the
検知時刻Pを記憶させた後、プロセッサ11は、Act3として音声信号が入力されるのを待ち受ける。デジタイズ部15を介してデジタル化された音声信号、いわゆる音データが入力されると(Act3にてYES)、プロセッサ11は、Act4として時計部14で計時されている時刻を音声開始時刻Dとしてメインメモリ12の所定領域に記憶させる(第2時刻取得手段)。またプロセッサ11は、Act5として音データをメインメモリ12の記録部に記録する。
After storing the detection time P, the
プロセッサ11は、Act6として音データの閾値判定を行う。閾値判定は、周囲に恒常的に生じている音データを認識対象から除外し、ユーザが発声した音声のデータのみを認識対象とする機能である。具体的には、記録部に記録された所定のバッファリング単位の音データが所定の音量THP以上であるかを判定し、所定の音量THP以上である場合にはその音データを認識対象とする。
The
プロセッサ11は、Act7として閾値判定の結果を確認する。閾値判定の結果、音データを認識対象外とする場合(Act7にてNO)、プロセッサ11は、Act3の処理に戻る。そしてプロセッサ11は、Act3以降の処理を再度繰り返す。これに対し、音データを認識対象とする場合には(Act7にてYES)、プロセッサ11は、Act8の処理に進む。ここに、プロセッサ11は、Act6及びAct7の処理を実行することにより、閾値判定部112として機能する。
The
Act8では、プロセッサ11は、音声認識を行う。すなわちプロセッサ11は、記録部に記録された音データの周波数特性を鑑み、その音データの音声特徴量を算出する。そしてプロセッサ11は、単語辞書ファイル131及び言語辞書ファイル132のデータを用いて確率的なパターン認識処理を行うことにより、音データから音声発話として認識した文字列を作成する。作成された音声発話の文字列は、メインメモリ12に一時的に記憶される。因みに、このような音声認識の手法は周知であるので、ここでの詳細な説明は省略する。また、音声認識の手法は特に限定されるものではなく、他の手法を用いて音データから音声発話としての文字列を認識してもよい。ここにプロセッサ11は、Act8の処理を実行することにより、音声認識部(認識手段)113として機能する。
In Act 8, the
音データの音声認識を終えると、プロセッサ11は、Act9として音声発話の認識結果を修正するか否かを判定する(判定手段)。具体的にはプロセッサ11は、Act2の処理で取得した検知時刻PからAct4の処理で取得した音声開始時刻Dまでの経過時間(D−P)が、予め設定された閾値時間Tよりも短いか否かを調べる。そして短い場合には、プロセッサ11は修正の必要有りと判定する。これに対して短くない場合には、プロセッサ11は修正の必要無しと判定する。必要有りと判定した場合(Act9にてNO)、プロセッサ11は、Act10の処理を実行した後、Act11の処理へと進む。必要無しと判定した場合には(Act9にてYES)、プロセッサ11は、Act10の処理を実行することなく、Act11の処理へと進む。
After finishing the voice recognition of the sound data, the
Act10では、プロセッサ11は、Act8の処理で認識された音声発話を修正する(修正手段)。なお、音声発話の修正手法については後述する。ここにプロセッサ11は、Act9及びAct10の処理を実行することにより、修正部114として機能する。
In
Act11では、プロセッサ11は、Act8の処理で認識された音声発話又はAct10の処理で修正された音声発話のデータを、出力部19を介して外部へと出力する。あるいはプロセッサ11は、音声発話のデータを表示デバイス50へと出力して、認識結果を表示デバイスの画面上に表示させてもよい。ここにプロセッサ11は、Act11の処理を実行することにより、出力制御部115として機能する。
以上で、音声認識プログラムに基づくプロセッサ11の処理は終了する。
In
This completes the processing of the
図5及び図6は、ユーザが「や・き・に・く」と発声した際の音声信号(アナログデータ)の具体例である。図5の例において、発話ボタン30の押下検知時刻Pは「P1」で示されており、音声開始時刻Dは「D1」で示されている。すなわち図5の例では、押下検知時刻Pから音声開始時刻Dまでの経過時間はT1で示されている。同様に、図6の例において、発話ボタン30の押下検知時刻Pは「P2」で示されており、音声開始時刻Dは「D2」で示されている。すなわち図6の例では、押下検知時刻Pから音声開始時刻Dまでの経過時間はT2で示されている。
5 and 6 are specific examples of audio signals (analog data) when the user utters "yaki-ni-ku". In the example of FIG. 5, the press detection time P of the
図5の例の場合、経過時間T1は十分に長いため、記録部に記録された音データの先頭部分に欠落は生じていない。その結果、音データは「ya・ki・ni・ku」であり、認識された音声発話は「焼き肉」となる。これに対し、図6の例の場合は経過時間T2が短いため、記録部に記録された音データの先頭部分“y”が欠落している。その結果、音データは「a・ki・ni・ku」であり、認識された音声発話は、図7の状態遷移図から「秋行く」となる。つまり、先頭の音データ「a」と次の音データ「ki」とから、単語「秋」が認識され、この単語「秋」に続く音データが「niku」の場合の確率は0.1、「iku」の場合の確率は0.2であることから、音声発話「秋行く」と認識される。 In the case of the example of FIG. 5, since the elapsed time T1 is sufficiently long, there is no omission in the head portion of the sound data recorded in the recording unit. As a result, the sound data is "ya, ki, ni, ku", and the recognized voice utterance is "roasted meat". On the other hand, in the case of the example of FIG. 6, since the elapsed time T2 is short, the head portion “y” of the sound data recorded in the recording unit is missing. As a result, the sound data is "a, ki, ni, ku", and the recognized voice utterance is "going autumn" from the state transition diagram of FIG. In other words, the word "autumn" is recognized from the first sound data "a" and the next sound data "ki", and the probability when the sound data following this word "autumn" is "niku" is 0.1, "iku". Since the probability in the case of "is 0.2", it is recognized as a voice utterance "going autumn".
ここで、本実施形態の音声認識装置10は、押下検知時刻Pから音声開始時刻Dまでの経過時間が予め設定された閾値時間Tよりも短い場合、プロセッサ11が音声発話の修正処理を行う。今、閾値時間Tが「T1>T>T2」の関係にあると仮定する。この場合、プロセッサ11は、図5の例では修正を行わないが、図6の例では修正を実行する。
Here, in the
具体的にはプロセッサ11は、先ず、音データ「a・ki・ni・ku」の先頭「a」が母音である場合、この母音に子音を示す「k,s,t,n,h,m,y,r,w」を順次付加する。すなわちプロセッサ11は、音データ「ka・ki・ni・ku」、「sa・ki・ni・ku」「ta・ki・ni・ku」、「na・ki・ni・ku」、「ha・ki・ni・ku」、「ma・ki・ni・ku」、「ya・ki・ni・ku」、「ra・ki・ni・ku」、「wa・ki・ni・ku」を作成する。そしてプロセッサ11は、これらの音データのそれぞれについて、単語辞書ファイル131及び言語辞書ファイル132を用いたパターン認識処理を再度実行する。その結果、図8に示す状態遷移図が作成されたと仮定すると、プロセッサ11は、この状態遷移図から繋がりの確率が最も高い音データ「ya・ki・ni・ku」を選出する。そしてプロセッサ11は、音声発話「秋行く」を「焼き肉」に修正する。
Specifically, the
このように、本実施形態の音声認識装置10によれば、ユーザが発話ボタン30を押下してから発声を開始するまでの時間が短く、記録部に記録された音声信号の先頭に欠落が生じたために誤認識してしまった場合でも、高い確率をもって音声発話を修正することができる。したがって、ユーザに発声開始のタイミングを知らせることなく、音声信号の先頭部分を記録できなかったことによる誤認識を低減できるので、認識精度の高い音声認識装置を提供することができる。
As described above, according to the
また音声認識装置10によれば、表示画面に所定の画像を表示させてユーザに発声開始のタイミングを知らせる必要もなくなる。したがって、表示画面を有していない電子機器にも搭載できる上、プロセッサ11の処理負荷が大きくなる懸念もない。
また音声認識装置10のプロセッサ11は、ユーザが発話ボタン30を押下してから発声を開始するまでの時間が所定の閾値時間Tよりも短いときに修正を行い、閾値時間T以上のときには修正を行わない。したがって、ユーザが発話ボタン30を押下してから直ぐに発声したときだけ修正処理を行えばよいので、この点からもプロセッサ11の処理負荷が大幅に増加するようなことはない。
Further, according to the
Further, the
またプロセッサ11は、開始指示を受け付けた第1時刻を取得する第1時刻取得手段と、音声信号の入力が開始された第2時刻を取得する第2時刻取得手段とを備えている。したがって、ユーザが発話ボタン30を押下してから発声を開始するまでの時間を正確に把握できるので、適切な閾値時間Tを設定することで、無駄な修正処理を実施するのを未然に防ぐことができる。
Further, the
また、認識した音声発話を修正する場合、プロセッサ11は、その音声発話の先頭の単語を、音声発話の2番目以降の単語と繋がりのある他の単語に置き換えて修正する。したがって、修正処理も比較的容易であり短時間で実行できるので、プロセッサ11の処理負荷が大幅に増加して認識速度が低下する懸念もない。
Further, when correcting the recognized voice utterance, the
以下、他の実施形態について説明する。
前記実施形態では、プロセッサ11が、図4のAct2にて検知時刻Pを記憶し、Act4にて音声開始時刻Dを記憶した。他の実施形態では、Act1にて発話ボタン30が押下されたことを検知したならば、プロセッサ11がタイマをスタートさせ、Act3にて音データの入力を検知したならば、プロセッサ11がタイマをストップさせる。そしてAct9では、プロセッサ11がタイマの計時時間と閾値時間Tとを比較して、修正処理を行うか否かを判定する。このような構成であっても、前記実施形態と同様な作用効果を奏することができる。
Hereinafter, other embodiments will be described.
In the above embodiment, the
この他、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
以下、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]音声入力手段を介して入力された音声信号を記録する記録部と、音声入力の開始指示を受け付ける受付手段と、前記受付手段により前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する認識手段と、前記受付手段により前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する判定手段と、前記判定手段により修正すると判定された音声発話を修正する修正手段と、を具備する音声認識装置。
[2]前記判定手段は、前記時間が所定の閾値時間よりも短いとき修正すると判定する、付記[1]記載の音声認識装置。
[3]前記受付手段により前記開始指示を受け付けた第1時刻を取得する第1時刻取得手段と、前記音声入力手段を介して音声信号の入力が開始された第2時刻を取得する第2時刻取得手段と、をさらに具備し、前記判定手段は、前記第1時刻から前記第2時刻までの経過時間が前記閾値時間よりも短いとき修正すると判定する、付記[2]記載の音声認識装置。
[4]前記修正手段は、前記認識手段で認識した音声発話の先頭の単語を、前記音声発話の2番目以降の単語と繋がりのある他の単語に置き換えて修正する、付記[1]乃至[3]のうちいずれか1項記載の音声認識装置。
[5]音声入力の開始指示を受け付け、前記開始指示を受け付けた後に音声入力手段を介して入力された音声信号から音声発話を認識し、前記開始指示を受け付けてから前記音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定し、修正する場合、前記認識された音声発話を修正する音声認識方法。
[6]音声入力手段を接続するとともに、前記音声入力手段を介して入力された音声信号を記録する記録部を備えたコンピュータに、音声入力の開始指示を受け付ける機能と、前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する機能と、前記開始指示を受け付けてから前記音声入力手段を介して音声信号が入力されるまでの時間により前記音声発話の認識結果を修正するか否かを判定する機能と、前記修正すると判定された音声発話を修正する機能と、を実現させるための音声認識プログラム。
In addition, although some embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.
Hereinafter, the inventions described in the scope of the original claims of the application of the present application will be added.
[1] A recording unit for recording a voice signal input via a voice input means, a reception means for receiving a voice input start instruction, and a recording unit after receiving the start instruction by the reception means. Whether to correct the recognition result of the voice utterance by the recognition means for recognizing the voice utterance from the voice signal and the time from receiving the start instruction by the reception means until the voice signal is input via the voice input means. A voice recognition device comprising: a determination means for determining whether or not, and a correction means for correcting a voice utterance determined to be corrected by the determination means.
[2] The voice recognition device according to the appendix [1], wherein the determination means determines to correct when the time is shorter than a predetermined threshold time.
[3] A first time acquisition means for acquiring the first time when the start instruction is received by the reception means, and a second time for acquiring the second time when the input of the voice signal is started via the voice input means. The voice recognition device according to the appendix [2], further comprising an acquisition means, wherein the determination means determines to correct when the elapsed time from the first time to the second time is shorter than the threshold time.
[4] The correction means replaces the first word of the voice utterance recognized by the recognition means with another word connected to the second and subsequent words of the voice utterance, and corrects the words [1] to [1] to [ 3] The voice recognition device according to any one of the following items.
[5] The voice input start instruction is received, the voice utterance is recognized from the voice signal input via the voice input means after receiving the start instruction, and the voice signal is input after receiving the start instruction. A voice recognition method for correcting the recognized voice utterance when it is determined whether or not to correct the recognition result of the voice utterance based on the time until.
[6] A function of receiving a voice input start instruction and a function of receiving the start instruction are received in a computer provided with a recording unit for recording a voice signal input via the voice input means while connecting the voice input means. The recognition result of the voice utterance is determined by the function of recognizing the voice utterance from the voice signal recorded in the recording unit later and the time from receiving the start instruction until the voice signal is input via the voice input means. A voice recognition program for realizing a function of determining whether or not to correct and a function of correcting the voice utterance determined to be corrected.
10…音声認識装置、11…プロセッサ、12…メインメモリ、13…補助記憶デバイス、14…時計部、19…出力部、20…マイクロフォン、30…発話ボタン、111…押下検知部、112…閾値判定部、113…音声認識部、114……修正部、115…出力制御部、131、131A…単語辞書ファイル、132、132A,132B…言語辞書ファイル。 10 ... voice recognition device, 11 ... processor, 12 ... main memory, 13 ... auxiliary storage device, 14 ... clock unit, 19 ... output unit, 20 ... microphone, 30 ... utterance button, 111 ... press detection unit, 112 ... threshold determination Unit, 113 ... Voice recognition unit, 114 ... Correction unit, 115 ... Output control unit, 131, 131A ... Word dictionary file, 132, 132A, 132B ... Language dictionary file.
Claims (4)
音声入力の開始指示を受け付ける受付手段と、
前記受付手段により前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する認識手段と、
前記認識手段で認識した音声発話の先頭の語が母音である場合、その母音に子音を順次付加した単語と前記音声発話の2番目以降の単語との単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する修正手段と、
を具備する音声認識装置。 A recording unit that records audio signals input via audio input means, and
A reception means that accepts voice input start instructions,
A recognition means for recognizing a voice utterance from a voice signal recorded in the recording unit after receiving the start instruction by the reception means.
When the first word of the voice utterance recognized by the recognition means is a vowel, the probability is calculated for the connection pattern between the words in which consonants are sequentially added to the vowel and the second and subsequent words of the voice utterance. A correction method to correct the voice utterance of the connection pattern with the maximum probability,
A voice recognition device equipped with.
前記音声入力手段を介して音声信号の入力が開始された第2時刻を取得する第2時刻取得手段と、
をさらに具備し、
前記修正手段は、前記第1時刻から前記第2時刻までの経過時間が所定の閾値時間よりも短いとき修正する、請求項1記載の音声認識装置。 A first time acquisition means for acquiring the first time when the start instruction is received by the reception means, and
A second time acquisition means for acquiring a second time when the input of a voice signal is started via the voice input means, and a second time acquisition means.
Further equipped,
It said correction means, the elapsed time from the first time to the second time you modified when less than a predetermined threshold time, the speech recognition apparatus請Motomeko 1 wherein.
前記開始指示を受け付けた後に音声入力手段を介して入力された音声信号から音声発話を認識し、
前記認識した音声発話の先頭の語が母音である場合、その母音に子音を順次付加した単語と前記音声発話の2番目以降の単語との単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する、音声認識方法。 Accepts voice input start instructions and accepts
After receiving the start instruction, the voice utterance is recognized from the voice signal input via the voice input means, and the voice utterance is recognized.
When the first word of the recognized voice utterance is a vowel, the probability is calculated for the connection pattern between the words in which consonants are sequentially added to the vowel and the second and subsequent words of the voice utterance, and the maximum probability is reached. A voice recognition method that corrects the connection pattern of voice utterances.
音声入力の開始指示を受け付ける機能と、
前記開始指示を受け付けた後に前記記録部に記録された音声信号から音声発話を認識する機能と、
前記認識した音声発話の先頭の語が母音である場合、その母音に子音を順次付加した単語と前記音声発話の2番目以降の単語との単語同士の繋がりパターンについて確率を計算し、最大確率の繋がりパターンの音声発話に修正する機能と、
を実現させるための音声認識プログラム。 A computer provided with a recording unit for connecting a voice input means and recording a voice signal input via the voice input means.
A function that accepts voice input start instructions and
A function of recognizing a voice utterance from a voice signal recorded in the recording unit after receiving the start instruction, and
When the first word of the recognized voice utterance is a vowel, the probability is calculated for the connection pattern between the words in which consonants are sequentially added to the vowel and the second and subsequent words of the voice utterance, and the maximum probability is reached. The function to correct the voice utterance of the connection pattern and
A voice recognition program to realize.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020200894A JP6972287B2 (en) | 2016-09-15 | 2020-12-03 | Speech recognition device, speech recognition method and speech recognition program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016180447A JP6804909B2 (en) | 2016-09-15 | 2016-09-15 | Speech recognition device, speech recognition method and speech recognition program |
JP2020200894A JP6972287B2 (en) | 2016-09-15 | 2020-12-03 | Speech recognition device, speech recognition method and speech recognition program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016180447A Division JP6804909B2 (en) | 2016-09-15 | 2016-09-15 | Speech recognition device, speech recognition method and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021043465A JP2021043465A (en) | 2021-03-18 |
JP6972287B2 true JP6972287B2 (en) | 2021-11-24 |
Family
ID=74862342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020200894A Active JP6972287B2 (en) | 2016-09-15 | 2020-12-03 | Speech recognition device, speech recognition method and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6972287B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244692A (en) * | 1996-03-07 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | Uttered word certifying method and device executing the same method |
JP2005234236A (en) * | 2004-02-19 | 2005-09-02 | Canon Inc | Device and method for speech recognition, storage medium, and program |
JP4667082B2 (en) * | 2005-03-09 | 2011-04-06 | キヤノン株式会社 | Speech recognition method |
-
2020
- 2020-12-03 JP JP2020200894A patent/JP6972287B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2021043465A (en) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4667082B2 (en) | Speech recognition method | |
US9196247B2 (en) | Voice recognition method and voice recognition apparatus | |
KR102115541B1 (en) | Speech re-recognition using external data sources | |
JP2023041843A (en) | Voice section detection apparatus, voice section detection method, and program | |
JP6804909B2 (en) | Speech recognition device, speech recognition method and speech recognition program | |
JP2004508594A (en) | Speech recognition method with replacement command | |
WO1998013822A1 (en) | Method of and system for recognizing a spoken text | |
WO2003025904A1 (en) | Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word | |
CN110265028B (en) | Method, device and equipment for constructing speech synthesis corpus | |
US20150081272A1 (en) | Simultaneous speech processing apparatus and method | |
JP2015014665A (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
JP2014081441A (en) | Command determination device, determination method thereof, and command determination program | |
JP6127422B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
JP6972287B2 (en) | Speech recognition device, speech recognition method and speech recognition program | |
CN112908308B (en) | Audio processing method, device, equipment and medium | |
JP4296290B2 (en) | Speech recognition apparatus, speech recognition method and program | |
JP2008051883A (en) | Voice synthesis control method and apparatus | |
JP6527000B2 (en) | Pronunciation error detection device, method and program | |
JP3720595B2 (en) | Speech recognition apparatus and method, and computer-readable memory | |
JP2010204442A (en) | Speech recognition device, speech recognition method, speech recognition program and program recording medium | |
JP3992586B2 (en) | Dictionary adjustment apparatus and method for speech recognition | |
JP2975542B2 (en) | Voice recognition device | |
JP7035476B2 (en) | Speech processing program, speech processor, and speech processing method | |
JP5152016B2 (en) | Speech recognition dictionary creation device and speech recognition dictionary creation method | |
JPS6126678B2 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201203 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210930 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6972287 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |