JP6735392B1 - Audio text conversion device, audio text conversion method, and audio text conversion program - Google Patents
Audio text conversion device, audio text conversion method, and audio text conversion program Download PDFInfo
- Publication number
- JP6735392B1 JP6735392B1 JP2019096723A JP2019096723A JP6735392B1 JP 6735392 B1 JP6735392 B1 JP 6735392B1 JP 2019096723 A JP2019096723 A JP 2019096723A JP 2019096723 A JP2019096723 A JP 2019096723A JP 6735392 B1 JP6735392 B1 JP 6735392B1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- recognition result
- waveform
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 title description 21
- 238000005520 cutting process Methods 0.000 claims abstract description 26
- 230000001629 suppression Effects 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 abstract description 3
- 230000009194 climbing Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】より精度が高い音声認識結果を出力する。【解決手段】雑音抑圧部11が元音声波形f1の雑音を抑制し、発話区間検出部12が雑音抑圧音声波形f2から発話区間tjを検出し、音声波形切断部13が元音声波形f1と雑音抑圧音声波形f2を発話区間tjごとに切断して区間音声波形f1_tj,f2_tjを得て、音声認識部14が、複数の音声認識エンジンeiのそれぞれにより、雑音抑圧前後の区間音声波形f1_tj,f2_tjのそれぞれを音声認識し、文字数の多い方を音声認識エンジンeiによる発話区間tjの音声認識結果Rijとし、認識結果補正部15が発話区間tjごとに音声認識結果Rijを比較して音声認識結果を補正する。【選択図】図1A speech recognition result with higher accuracy is output. SOLUTION: A noise suppressing section 11 suppresses noise of an original speech waveform f1, a speech section detecting section 12 detects a speech section tj from a noise suppressing speech waveform f2, and a speech waveform cutting section 13 detects the original speech waveform f1 and noise. The suppressed voice waveform f2 is cut for each utterance section tj to obtain the section voice waveforms f1_tj, f2_tj, and the voice recognition unit 14 causes the plurality of voice recognition engines ei to detect the section voice waveforms f1_tj, f2_tj before and after noise suppression. Each of them is subjected to voice recognition, and the one having the larger number of characters is set as the voice recognition result Rij of the utterance section tj by the voice recognition engine ei, and the recognition result correction unit 15 compares the voice recognition results Rij for each utterance section tj to correct the voice recognition result. To do. [Selection diagram] Figure 1
Description
本発明は、音声認識精度を向上する技術に関する。 The present invention relates to a technique for improving voice recognition accuracy.
近年、音声認識技術が広く利用されている。例えば、ネットワークに接続されたスピーカーにマイクを内蔵し、音声認識による操作を可能とするスマートスピーカーが普及している。様々な企業から音声認識エンジンが提供されており、音声をテキスト化することが容易になっている。 In recent years, voice recognition technology has been widely used. For example, smart speakers that have a microphone built in a speaker connected to a network and that can be operated by voice recognition have become widespread. Various companies have provided speech recognition engines, which makes it easy to convert speech into text.
また、音声認識の精度を向上させるための雑音抑圧技術も検討されている(例えば非特許文献1)。 Further, a noise suppression technique for improving the accuracy of voice recognition has also been studied (for example, Non-Patent Document 1).
音声認識エンジンによって認識結果の特性が異なり、音声認識エンジンごとに得意不得意がある。音声認識エンジンごとに学習に用いているデータや音声認識アルゴリズムが異なるので、文章のような整った話し方の音声での認識精度が高い音声認識エンジンや、話し言葉のようなくだけた話し方の音声での認識精度が高い音声認識エンジンがある。音声認識エンジンによっては、認識精度が高いと推定される箇所のみを出力するものもあれば、認識できた箇所すべてを出力するものもある。 The characteristics of the recognition result differ depending on the voice recognition engine, and each voice recognition engine has its strengths and weaknesses. Since the data used for learning and the voice recognition algorithm are different for each voice recognition engine, a voice recognition engine with high recognition accuracy for a speech with a neat speaking style such as a sentence, or a voice with an unnatural speech like a spoken word There is a voice recognition engine with high recognition accuracy. Depending on the voice recognition engine, there are those that output only the portion where the recognition accuracy is estimated to be high, and those that output all the recognized portions.
また、雑音抑圧することで、音声認識精度が向上する箇所とそうでない箇所があり、雑音抑圧すれば認識精度が必ずしも上がるわけではない。例えば、雑音抑圧技術を適用すると、雑音のある個所は雑音が抑圧されるため音声認識精度が向上する。しかし、雑音のない箇所は、雑音抑圧処理が施されることで音質が下がり、音声認識精度が低下してしまうことがある。 Further, there is a portion where the voice recognition accuracy is improved by suppressing the noise and a portion where it is not, and if the noise is suppressed, the recognition accuracy is not necessarily improved. For example, when the noise suppression technique is applied, the noise is suppressed in a noisy place, so that the speech recognition accuracy is improved. However, noise-free processing may reduce the sound quality at a noise-free location, resulting in a decrease in voice recognition accuracy.
本発明は、上記に鑑みてなされたものであり、より精度が高い音声認識結果を出力することを目的とする。 The present invention has been made in view of the above, and an object thereof is to output a voice recognition result with higher accuracy.
本発明に係る音声テキスト化装置は、入力した音声波形の雑音を抑圧する雑音抑圧部と、複数の音声認識エンジンのそれぞれにより、前記音声波形を音声認識した第1の音声認識結果と、雑音を抑圧した雑音抑圧音声波形を音声認識した第2の音声認識結果を得て、前記第1の音声認識結果と前記第2の音声認識結果のうち文字数の多い方を当該音声認識エンジンの音声認識結果として選択する音声認識部と、前記複数の音声認識エンジンの音声認識結果を互いに比較して前記音声認識結果を補正する認識結果補正部と、を有することを特徴とする。 A speech text forming apparatus according to the present invention, a noise suppressing unit for suppressing noise of an input speech waveform, and a first speech recognition result of speech recognition of the speech waveform by each of a plurality of speech recognition engines, and noise A second speech recognition result obtained by recognizing the suppressed noise-suppressed speech waveform is obtained, and one of the first speech recognition result and the second speech recognition result having the larger number of characters is determined by the speech recognition engine. And a recognition result correction unit that compares the voice recognition results of the plurality of voice recognition engines with each other and corrects the voice recognition result.
本発明に係る音声テキスト化方法は、入力した音声波形の雑音を抑圧するステップと、複数の音声認識エンジンのそれぞれにより、前記音声波形を音声認識した第1の音声認識結果と、雑音を抑圧した雑音抑圧音声波形を音声認識した第2の音声認識結果を得るステップと、前記第1の音声認識結果と前記第2の音声認識結果のうち文字数の多い方を当該音声認識エンジンの音声認識結果として選択するステップと、前記複数の音声認識エンジンの音声認識結果を互いに比較して前記音声認識結果を補正するステップと、を有することを特徴とする。 A voice text conversion method according to the present invention suppresses noise in an input voice waveform, first voice recognition result of voice recognition of the voice waveform by each of a plurality of voice recognition engines, and noise is suppressed. A step of obtaining a second voice recognition result obtained by voice-recognizing a noise-suppressed voice waveform, and a method having a larger number of characters of the first voice recognition result and the second voice recognition result is used as the voice recognition result of the voice recognition engine. And a step of comparing the voice recognition results of the plurality of voice recognition engines with each other to correct the voice recognition result.
本発明によれば、より精度が高い音声認識結果を出力することができる。 According to the present invention, it is possible to output a voice recognition result with higher accuracy.
以下、本発明の実施の形態について図面を用いて説明する。 Embodiments of the present invention will be described below with reference to the drawings.
(音声テキスト化装置の構成)
図1は、本実施形態の音声テキスト化装置1の構成を示す機能ブロック図である。音声テキスト化装置1は、音声を入力し、入力した音声を音声認識した認識結果であるテキストを出力する。音声テキスト化装置1は、テキストに加えて、音声認識結果の補正内容を示す補正状態を出力してもよい。
(Structure of voice text conversion device)
FIG. 1 is a functional block diagram showing the configuration of the voice
図1に示す音声テキスト化装置1は、雑音抑圧部11、発話区間検出部12、音声波形切断部13、音声認識部14、および認識結果補正部15を備える。音声テキスト化装置1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは音声テキスト化装置1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。
The speech
雑音抑圧部11は、音声認識対象となる元音声波形f1を入力し、雑音抑圧処理を実施して、雑音抑圧音声波形f2を出力する。雑音抑圧処理は、例えば、非特許文献1の音声処理技術や、ノイズキャンセリングイヤホン等に実装されている技術を用いることができる。元音声波形f1と雑音抑圧音声波形f2は、音声波形切断部13に入力される。
The
発話区間検出部12は、雑音抑圧音声波形f2を入力し、音声波形の中で人が発話している発話区間tj(j=1,2,・・・,m)を検出する。発話区間の検出には、Google等が公開しているVAD(Voice Activity Detection)ライブラリを利用できる。発話区間検出部12は、元音声波形f1から発話区間を検出してもよい。
The utterance
音声波形切断部13は、元音声波形f1と雑音抑圧音声波形f2のそれぞれを発話区間tjで音声波形を切り出し、切り出した発話区間ごとの音声波形のそれぞれの先頭に無音波形を付加する。音声波形切断部13は、元音声波形f1から発話区間tjごとに切り出して無音波形を付加した区間音声波形f1_tjと、雑音抑圧音声波形f2から発話区間tjごとに切り出して無音波形を付加した区間音声波形f2_tjを音声認識部14へ出力する。
The voice
音声認識部14は、複数の音声認識エンジンei(i=1,2,・・・,n)を用いて、発話区間tjごとに、雑音抑圧前後の区間音声波形f1_tjと区間音声波形f2_tjを音声認識する。音声認識部14は、区間音声波形f1_tjと区間音声波形f2_tjの認識結果のうち文字数が多い方の認識結果を、音声認識エンジンeiによる発話区間tjの音声認識結果Rijとする。つまり、音声認識部14は、発話区間tjごとに、複数の音声認識エンジンeiによる音声認識結果Rijを出力する。
The
音声認識部14は、複数の音声認識エンジンeiを備えてもよいし、外部の音声認識サービスを用いて音声認識してもよい。異なる複数の音声認識エンジンeiを用いるのであれば、その形式は問わない。複数の結果を出力する音声認識エンジンに関しては、信頼度が最大の認識結果を採用する。あるいは、複数の結果のうち信頼度が上位のものから複数個を出力し、後段の認識結果補正部15で比較してもよい。
The
認識結果補正部15は、発話区間tjごとに、音声認識エンジンeiごとの音声認識結果Rijを比較して不一致箇所を特定し、不一致箇所に関して、より多くの音声認識エンジンeiの音声認識結果を採用する。音声テキスト化装置1の入力した音声が映像やスライドに付随するものである場合、認識結果補正部15は、不一致箇所に関して、音声認識結果Rijを映像やスライドの文字認識結果と比較し、最も適した内容に補正する。映像やスライドの文字認識結果は、別の装置が映像等を処理して抽出したものを音声テキスト化装置1が入力してもよいし、音声テキスト化装置1が映像等を入力して抽出してもよい。
The recognition result
認識結果補正部15は、補正後の音声認識結果であるテキストに加えて、音声認識結果Rijの不一致箇所の補正状態を出力する。例えば、認識結果補正部15は、補正した不一致箇所に対して、音声認識比較での補正または文字認識との比較での補正などの情報を付与する。
The recognition result
(音声テキスト化装置の動作)
次に、本実施形態の音声テキスト化装置1の動作について説明する。
(Operation of voice text conversion device)
Next, the operation of the voice
図2は、本実施形態の音声テキスト化装置1の処理の流れを示すフローチャートである。
FIG. 2 is a flowchart showing the flow of processing of the voice
ステップS1にて、雑音抑圧部11は、元音声波形f1に対して雑音抑圧処理を実施し、雑音抑圧音声波形f2を出力する。
In step S1, the
ステップS2にて、発話区間検出部12は、雑音抑圧音声波形f2から発話区間tjを検出する。
In step S2, the speech
ステップS3にて、音声波形切断部13は、元音声波形f1と雑音抑圧音声波形f2のそれぞれから発話区間tjを切り出すとともに、切り出した区間音声波形f1_tj,f2_tjの頭に無音波形を付加する。音声波形切断部13による音声波形切断処理の詳細は後述する。
In step S3, the voice
なお、元音声波形f1が短い場合は、ステップS2,S3の処理を行わずに、元音声波形f1と雑音抑圧音声波形f2を音声認識部14に渡してもよい。
If the original speech waveform f1 is short, the original speech waveform f1 and the noise-suppressed speech waveform f2 may be passed to the
ステップS4にて、音声認識部14は、複数の音声認識エンジンeiを用いて、区間音声波形f1_tj,f2_tjのそれぞれを音声認識し、音声認識結果Rijを得る。音声認識部14による音声認識処理の詳細は後述する。
In step S4, the
ステップS5にて、認識結果補正部15は、複数の音声認識エンジンeiによる音声認識結果Rijを比較し、適切な認識結果を採用してテキストを出力する。認識結果補正部15は、元音声に関連した文字認識結果を用いて音声認識結果を補正してもよい。認識結果補正部15による認識結果補正処理の詳細は後述する。
In step S5, the recognition
(音声波形切断処理)
図3は、音声波形切断処理の流れを示すフローチャートである。音声波形切断部13は、元音声波形f1、雑音抑圧音声波形f2、および発話区間tjを入力し、音声波形切断処理を実行する。
(Voice waveform cutting process)
FIG. 3 is a flowchart showing the flow of the voice waveform cutting process. The speech
ステップS31にて、音声波形切断部13は、元音声波形f1を発話区間tjで切り出す。
In step S31, the voice
ステップS32にて、音声波形切断部13は、雑音抑圧音声波形f2を発話区間tjで切り出す。
In step S32, the voice
ステップS33にて、音声波形切断部13は、元音声波形f1および雑音抑圧音声波形f2を発話区間tjで切り出した音声波形のそれぞれの先頭に無音波形を付加する。音声波形切断部13は、元音声波形f1を発話区間tjで切り出して無音を付加した区間音声波形f1_tjと、雑音抑圧音声波形f2を発話区間tjで切り出して無音を付加した区間音声波形f2_tjを出力する。
In step S33, the speech
図4に示すように、音声認識の際、発話前の無音区間が所定の長さ以上あれば認識精度が向上する。そのため、音声波形切断部13は、認識精度が飽和するような無音区間の時間を事前に決定しておき、切り出した区間音声波形f1_tj,f2_tjの頭に無音区間を付加する。
As shown in FIG. 4, at the time of voice recognition, the recognition accuracy is improved if the silent section before utterance has a predetermined length or more. Therefore, the voice
ステップS34にて、音声波形切断部13は、全ての発話区間について処理したか否かを判定する。処理していない発話区間が存在する場合は、ステップS31に戻り、次の発話区間tj+1を処理する。全ての発話区間を切り出した場合は、音声波形切断処理を終了する。
In step S34, the voice
(音声認識処理)
図5は、音声認識処理の流れを示すフローチャートである。音声認識部14は、雑音抑圧前後の区間音声波形f1_tj,f2_tjを入力し、複数の音声認識エンジンのそれぞれを用いて、発話区間ごとに音声認識結果を求める。
(Voice recognition processing)
FIG. 5 is a flowchart showing the flow of voice recognition processing. The
ステップS41にて、音声認識部14は、複数の音声認識エンジンの中から一つの音声認識エンジンeiを選択する。
In step S41, the
ステップS42にて、音声認識部14は、ステップS41で選択した音声認識エンジンeiを用いて、元音声波形f1から切り出した区間音声波形f1_tjを音声認識する。
In step S42, the
ステップS43にて、音声認識部14は、ステップS41で選択した音声認識エンジンeiを用いて、雑音抑圧音声波形f2から切り出した区間音声波形f2_tjを音声認識する。
In step S43, the
ステップS44にて、音声認識部14は、ステップS42,S43で得られた音声認識結果の文字数を比較し、文字数の多い方の音声認識結果を音声認識エンジンeiによる発話区間tjの音声認識結果Rijとして採用する。雑音抑圧前後の波形の認識結果を比較することで、雑音抑圧により音声認識精度が向上する箇所とそうでない箇所があることを反映できる。雑音抑圧前後の認識文字数を比較し、文字数が多い認識結果を採用することで、認識漏れを防ぐことができる。
In step S44, the
ステップS45にて、音声認識部14は、全ての発話区間について処理したか否かを判定する。処理していない発話区間が存在する場合は、ステップS42に戻り、次の発話区間tj+1を処理する。
In step S45, the
ステップS46にて、音声認識部14は、全ての音声認識エンジンで処理したか否かを判定する。処理していない音声認識エンジンが存在する場合は、ステップS41に戻り、次の音声認識エンジンei+1を選択し、最初の発話区間から順に処理する。なお、ステップS42〜S45までの処理を複数の音声認識エンジンで並列に実行してもよい。
In step S46, the
(認識結果補正処理)
図6は、認識結果補正処理の流れを示すフローチャートである。認識結果補正部15は、発話区間tjごとに各音声認識エンジンeiの音声認識結果Rijを比較し、比較結果に基づいて音声認識結果を補正する。
(Recognition result correction process)
FIG. 6 is a flowchart showing the flow of the recognition result correction process. The recognition
ステップS51にて、認識結果補正部15は、発話区間tjについて、音声認識エンジンごとの音声認識結果を比較して不一致箇所を抽出する。具体的には、認識結果補正部15は、MeCabやJuman等を用いて音声認識結果Rijを形態素に分割し、difflib等のライブラリを用いて形態素ごとに音声認識エンジン間での認識結果を比較して不一致箇所を抽出する。
In step S51, the recognition
図7に、音声認識結果を形態素に分割し、不一致箇所を抽出した例を示す。同図の例では、発話区間tjにおける6つの音声認識エンジンe1〜e6の認識結果を形態素に分割して示している。発話区間tjの、音声認識エンジンe1−e3による音声認識結果は「私は山に登り」であり、音声認識エンジンe4,e5による音声認識結果は「わしは山に乗り」であり、音声認識エンジンe6による音声認識結果は「私は山に乗り」である。各音声認識結果を形態素に分割して比較したとき、「私」と「わし」、「登り」と「乗り」が不一致箇所として抽出される。 FIG. 7 shows an example in which the voice recognition result is divided into morphemes and the mismatched portions are extracted. In the example of the figure, the recognition results of the six voice recognition engines e1 to e6 in the utterance section tj are shown divided into morphemes. In the utterance section tj, the voice recognition results by the voice recognition engines e1-e3 are "I climb a mountain", the voice recognition results by the voice recognition engines e4, e5 are "I am a mountain ride", and the voice recognition engine The result of voice recognition by e6 is "I ride a mountain". When each speech recognition result is divided into morphemes and compared, "I" and "eagle" and "climbing" and "ride" are extracted as non-matching portions.
ステップS52にて、認識結果補正部15は、不一致箇所について、複数の音声認識エンジンが出力している結果を採用する。例えば、図7の例で、「私」と「わし」で不一致の箇所について、認識結果補正部15は、「私」と認識した音声認識エンジンの数が「わし」と認識した音声認識エンジンの数よりも多いので、「私」を採用する。また、図7の例で、「登り」と「乗り」で不一致の箇所について、認識結果補正部15は、音声認識エンジンの数が同数であるので、どちらを採用してもよい。
In step S52, the recognition
ステップS53にて、認識結果補正部15は、不一致箇所について、文字認識結果と不一致箇所の認識結果とを比較し、より適切な候補を採用する。例えば、発話区間tjの前後10秒を含めた区間から映像やスライドから文字認識結果を取得し、文字認識結果と不一致箇所の各認識結果の意味ベクトルを比較し、文字認識結果と意味が類似している認識結果を採用する。意味ベクトルは、word2vecなどのベクトル化手法を用いて導出できる。図7の例で、映像から「山登り」という文字が取得できた場合、「登り」と「乗り」で不一致の箇所について、認識結果補正部15は「登り」を採用する。
In step S53, the recognition
ステップS52とステップS53の順序は逆でもよい。ステップS52とステップS53で同じ不一致箇所を補正した場合は、より信頼度の高い方を採用してもよい。 The order of step S52 and step S53 may be reversed. When the same non-matching portion is corrected in step S52 and step S53, the one with higher reliability may be adopted.
ステップS54にて、認識結果補正部15は、ステップS52およびステップS53での補正状況に基づいて、補正状態フラグを設定する。図8に、補正状態フラグの一例を示す。図8の例では、ステップS52およびステップS53で音声認識結果を補正しなかった場合は補正状態フラグを1とし、ステップS52で音声認識結果間での比較に基づいて音声認識結果を補正した場合は補正状態フラグを2とし、ステップS53で文字認識結果との比較に基づいて音声認識結果を補正した場合は補正状態フラグを3としている。フラグは上記に限るものではない。
In step S54, the recognition
ステップS55にて、認識結果補正部15は、発話区間tjについて、音声認識結果のテキストTjとともにステップS54で設定した補正状態フラグfjを出力する。
In step S55, the recognition
ステップS56にて、認識結果補正部15は、全ての発話区間について処理したか否かを判定する。処理していない発話区間が存在する場合は、ステップS51に戻り、次の発話区間tj+1を処理する。
In step S56, the recognition
以上説明したように、本実施形態によれば、雑音抑圧部11が元音声波形f1の雑音を抑制し、発話区間検出部12が雑音抑圧音声波形f2から発話区間tjを検出し、音声波形切断部13が元音声波形f1と雑音抑圧音声波形f2を発話区間tjごとに切断して区間音声波形f1_tj,f2_tjを得て、音声認識部14が、複数の音声認識エンジンeiのそれぞれにより、雑音抑圧前後の区間音声波形f1_tj,f2_tjのそれぞれを音声認識し、文字数の多い方を音声認識エンジンeiによる発話区間tjの音声認識結果Rijとし、認識結果補正部15が発話区間tjごとに音声認識結果Rijを比較して音声認識結果を補正することにより、雑音抑圧効果の有無および音声認識エンジンの得意不得意に応じて音声認識の精度を向上できる。
As described above, according to the present embodiment, the
本実施形態によれば、音声波形切断部13が区間音声波形f1_tj,f2_tjの頭に無音波形を付加することにより、区間音声波形f1_tj,f2_tjの音声認識の精度を向上できる。
According to the present embodiment, the voice
本実施形態によれば、認識結果補正部15が元音声波形に付随する映像から抽出した文字認識結果に基づいて音声認識結果を補正することにより、音声の意味に合った音声認識結果が得られる。
According to the present embodiment, the recognition
本実施形態によれば、認識結果補正部15が音声認識結果の補正内容を示す補正状態フラグを出力することにより、音声認識結果の妥当性を判断できるようになる。
According to the present embodiment, the recognition
1…音声テキスト化装置
11…雑音抑圧部
12…発話区間検出部
13…音声波形切断部
14…音声認識部
15…認識結果補正部
DESCRIPTION OF
Claims (6)
複数の音声認識エンジンのそれぞれにより、前記音声波形を音声認識した第1の音声認識結果と、雑音を抑圧した雑音抑圧音声波形を音声認識した第2の音声認識結果を得て、前記第1の音声認識結果と前記第2の音声認識結果のうち文字数の多い方を当該音声認識エンジンの音声認識結果として選択する音声認識部と、
前記複数の音声認識エンジンの音声認識結果を互いに比較して前記音声認識結果を補正する認識結果補正部と、を有する
ことを特徴とする音声テキスト化装置。 A noise suppression unit that suppresses noise in the input speech waveform,
Each of the plurality of voice recognition engines obtains a first voice recognition result of voice recognition of the voice waveform and a second voice recognition result of voice recognition of a noise-suppressed voice waveform in which noise is suppressed, and obtains the first voice recognition result. A voice recognition unit that selects one of the voice recognition result and the second voice recognition result having the larger number of characters as the voice recognition result of the voice recognition engine;
And a recognition result correcting unit that corrects the voice recognition result by comparing the voice recognition results of the plurality of voice recognition engines with each other.
前記音声波形と前記雑音抑圧音声波形を発話区間ごとに切断するとともに、発話区間ごとに切断した区間音声波形の頭に無音波形を付加する音声波形切断部と、を有し、
前記音声認識部は、前記発話区間ごとに、前記音声波形と前記雑音抑圧音声波形のそれぞれから切り出した前記区間音声波形を音声認識する
ことを特徴とする請求項1に記載の音声テキスト化装置。 An utterance section detection unit that detects an utterance section from the voice waveform,
A voice waveform cutting unit that cuts the voice waveform and the noise-suppressed voice waveform for each utterance section, and adds a silent waveform to the head of the section voice waveform cut for each utterance section,
The voice recognition device according to claim 1, wherein the voice recognition unit performs voice recognition of the section voice waveform cut out from each of the voice waveform and the noise suppression voice waveform for each utterance section.
ことを特徴とする請求項1または2に記載の音声テキスト化装置。 The voice recognition device according to claim 1 or 2, wherein the recognition result correction unit corrects the voice recognition result based on a character recognition result extracted from an image associated with the voice waveform.
ことを特徴とする請求項1ないし3のいずれかに記載の音声テキスト化装置。 The voice text conversion device according to any one of claims 1 to 3, wherein the recognition result correction unit outputs information indicating correction contents of the voice recognition result.
複数の音声認識エンジンのそれぞれにより、前記音声波形を音声認識した第1の音声認識結果と、雑音を抑圧した雑音抑圧音声波形を音声認識した第2の音声認識結果を得るステップと、
前記第1の音声認識結果と前記第2の音声認識結果のうち文字数の多い方を当該音声認識エンジンの音声認識結果として選択するステップと、
前記複数の音声認識エンジンの音声認識結果を互いに比較して前記音声認識結果を補正するステップと、を有する
ことを特徴とする音声テキスト化方法。 Suppressing the noise of the input speech waveform,
Obtaining a first voice recognition result of voice recognition of the voice waveform and a second voice recognition result of voice recognition of a noise-suppressed voice waveform with noise suppressed by each of a plurality of voice recognition engines;
Selecting one of the first voice recognition result and the second voice recognition result, which has the larger number of characters, as the voice recognition result of the voice recognition engine;
A step of comparing the speech recognition results of the plurality of speech recognition engines with each other to correct the speech recognition result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019096723A JP6735392B1 (en) | 2019-05-23 | 2019-05-23 | Audio text conversion device, audio text conversion method, and audio text conversion program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019096723A JP6735392B1 (en) | 2019-05-23 | 2019-05-23 | Audio text conversion device, audio text conversion method, and audio text conversion program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6735392B1 true JP6735392B1 (en) | 2020-08-05 |
JP2020190671A JP2020190671A (en) | 2020-11-26 |
Family
ID=71892351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019096723A Active JP6735392B1 (en) | 2019-05-23 | 2019-05-23 | Audio text conversion device, audio text conversion method, and audio text conversion program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6735392B1 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5916054B2 (en) * | 2011-06-22 | 2016-05-11 | クラリオン株式会社 | Voice data relay device, terminal device, voice data relay method, and voice recognition system |
JP6754184B2 (en) * | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Voice recognition device and voice recognition method |
JP6389787B2 (en) * | 2015-03-25 | 2018-09-12 | 日本電信電話株式会社 | Speech recognition system, speech recognition method, program |
-
2019
- 2019-05-23 JP JP2019096723A patent/JP6735392B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020190671A (en) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11250851B2 (en) | Multi-layer keyword detection | |
US10186265B1 (en) | Multi-layer keyword detection to avoid detection of keywords in output audio | |
US20200251107A1 (en) | Voice control of remote device | |
US10917758B1 (en) | Voice-based messaging | |
US10593328B1 (en) | Voice control of remote device | |
US10887764B1 (en) | Audio verification | |
JP4667085B2 (en) | Spoken dialogue system, computer program, dialogue control apparatus, and spoken dialogue method | |
JPWO2019106517A5 (en) | ||
US11062711B2 (en) | Voice-controlled communication requests and responses | |
JP2019008120A (en) | Voice quality conversion system, voice quality conversion method and voice quality conversion program | |
CN114385800A (en) | Voice conversation method and device | |
JP2012163692A (en) | Voice signal processing system, voice signal processing method, and voice signal processing method program | |
JP4752516B2 (en) | Voice dialogue apparatus and voice dialogue method | |
KR101122591B1 (en) | Apparatus and method for speech recognition by keyword recognition | |
KR100639931B1 (en) | Recognition error correction apparatus for interactive voice recognition system and method therefof | |
JP5136512B2 (en) | Response generating apparatus and program | |
JP6735392B1 (en) | Audio text conversion device, audio text conversion method, and audio text conversion program | |
JP7326931B2 (en) | Program, information processing device, and information processing method | |
KR20180127020A (en) | Natural Speech Recognition Method and Apparatus | |
US11563708B1 (en) | Message grouping | |
KR20200102309A (en) | System and method for voice recognition using word similarity | |
WO2021059968A1 (en) | Speech recognition device, speech recognition method, and program | |
JP4042435B2 (en) | Voice automatic question answering system | |
Fukuda et al. | Breath-detection-based telephony speech phrasing | |
Kilinc et al. | Audio Deepfake Detection by using Machine and Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200707 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200713 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6735392 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |