JP6702119B2 - Speech recognition result creating device, method and program - Google Patents
Speech recognition result creating device, method and program Download PDFInfo
- Publication number
- JP6702119B2 JP6702119B2 JP2016187778A JP2016187778A JP6702119B2 JP 6702119 B2 JP6702119 B2 JP 6702119B2 JP 2016187778 A JP2016187778 A JP 2016187778A JP 2016187778 A JP2016187778 A JP 2016187778A JP 6702119 B2 JP6702119 B2 JP 6702119B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice recognition
- recognition result
- search
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、音声認識結果作成装置、方法及びプログラムに関する。 The present invention relates to a speech recognition result creating device, method and program.
従来、音声を認識する音声認識技術が知られている。音声認識技術では、音声をテキストに変換し、得られたテキストを複数の時間区画に分節し、分節された各テキストに対応する語句を選択し、選択した語句を連接することにより、音声認識結果(音声に対応する文章)が作成される。一般に、音声認識技術では、語句毎に整備された辞書データを利用して、分節された各テキストを対応する語句に変換する。これにより、音声認識結果の精度を向上させることができる。 Conventionally, a voice recognition technology for recognizing voice is known. Speech recognition technology converts speech into text, divides the obtained text into multiple time segments, selects the phrase corresponding to each segmented text, and concatenates the selected phrases to obtain the speech recognition result. (Sentence corresponding to voice) is created. Generally, in speech recognition technology, dictionary data prepared for each phrase is used to convert each segmented text into a corresponding phrase. Thereby, the accuracy of the voice recognition result can be improved.
一方、近年、インターネット上で音声認識サービスが提供されている。音声認識サービスには、音声認識結果と、分節された各テキストに対応する語句の候補と、を含む音声認識データをユーザに提供するものがある。ユーザは、音声データを音声認識サービスに入力することで、音声データに対応する音声認識データを得ることができる。 On the other hand, in recent years, a voice recognition service has been provided on the Internet. Some voice recognition services provide the user with voice recognition data including a voice recognition result and word and phrase candidates corresponding to each segmented text. The user can obtain voice recognition data corresponding to the voice data by inputting the voice data to the voice recognition service.
しかしながら、上記従来の音声認識サービスでは、ユーザは、辞書データを独自に整備することができなかった。このため、音声認識サービスから得られる音声認識結果は、精度が低いという問題があった。 However, in the above-mentioned conventional voice recognition service, the user cannot prepare the dictionary data independently. Therefore, there is a problem that the accuracy of the voice recognition result obtained from the voice recognition service is low.
本発明は、上記の課題に鑑みてなされたものであり、音声認識データに基づいて、精度の高い音声認識結果を作成可能とすることを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to make it possible to create a highly accurate voice recognition result based on voice recognition data.
一実施形態に係る音声認識結果作成装置は、各分節テキストに対応する語句の候補及び前記各候補の評価値を含む音声認識データを入力される入力部と、辞書データを記憶する辞書データ記憶部と、前記辞書データと、前記音声認識データと、の一致する部分を検索する検索部と、検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成部と、を備える。 A speech recognition result creating device according to an embodiment is an input unit for receiving speech recognition data including candidate words and phrases corresponding to segment texts and evaluation values of the candidates, and a dictionary data storage unit that stores dictionary data. And a search unit that searches a matching portion of the dictionary data and the voice recognition data, and a creation unit that creates a voice recognition result based on the search result and the voice recognition data. ..
本発明の各実施形態によれば、音声認識データに基づいて、精度の高い音声認識結果を作成することができる。 According to each embodiment of the present invention, a highly accurate voice recognition result can be created based on voice recognition data.
以下、本発明の各実施形態について、添付の図面を参照しながら説明する。なお、各実施形態に係る明細書及び図面の記載に関して、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重畳した説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. In addition, regarding the description of the specification and the drawings according to each embodiment, components having substantially the same functional configurations are denoted by the same reference numerals and overlapping description will be omitted.
(第1実施形態)
第1実施形態に係る音声認識結果作成装置(以下、「作成装置」という)1について、図1〜図7を参照して説明する。まず、作成装置1の機能構成について説明する。図1は、作成装置1の機能構成の一例を示す図である。図1の作成装置1は、入力部11と、音声認識データ記憶部12と、辞書データ記憶部13と、検索部14と、作成部15と、を備える。
(First embodiment)
A speech recognition result creating apparatus (hereinafter referred to as “creating apparatus”) 1 according to the first embodiment will be described with reference to FIGS. 1 to 7. First, the functional configuration of the
入力部11は、外部の音声認識サービスが出力した音声認識データを入力される。入力部11は、入力された音声認識データを音声認識データ記憶部12に記憶させる。
The
音声認識データ記憶部12は、音声認識データを記憶する。ここで、音声認識データについて説明する。音声認識サービスは、認識対象の音声を入力されると、当該音声をテキストに変換する。次に、音声認識サービスは、得られたテキストを、複数の時間区分に分節する。分節された各テキストを分節テキストという。続いて、音声認識サービスは、各分節テキストに対応する語句の候補を、各候補の評価値とともに、音声認識データとして出力する。すなわち、音声認識データは、各分節テキストに対応する語句の候補と、各候補の評価値と、を含むデータである。ここでいう評価値は、その候補の確からしさ、すなわち、正解である確率の高さを示す値である。正解とは、音声の発話者が意図した語句と一致することをいう。以下では、評価値が高いほど、正解である確率が高いものとする。この場合、音声認識サービスにより得られた音声認識結果は、各分節テキストの語句の候補の中で、最も評価値が高い候補を連接したものとなる。
The voice recognition
図2は、音声認識データ記憶部12に記憶された音声認識データの一例を示す図である。図2の音声認識データは、「リコーノキカクダ」という音声に対して出力されたものである。発話者は、「リコーの企画だ」という発言を意図したものとする。
FIG. 2 is a diagram showing an example of the voice recognition data stored in the voice recognition
図2の例では、音声認識サービスは、「リコーノキカクダ」という音声を「イコウノキカクダ」というテキストに変換し、「イコウ」、「ノ」、「キカク」、「ダ」という4つの分節テキストに分節している。「イコウ」に対応する語句の候補として、「行こう」及び「移行」が出力されている。「行こう」の評価値は0.3であり、「移行」の評価値は0.1である。図2の音声認識データの場合、音声認識サービスにより得られた音声認識結果は「行こうの規格だ」となる。 In the example of FIG. 2, the voice recognition service converts the voice "Ricoh no Kakuda" into the text "Iko no Kakuda" and divides it into four segment texts "Iko", "No", "Kikaku", and "Da". There is. "Let's go" and "transition" are output as the candidates for the word corresponding to "Iko". The evaluation value of "Let's go" is 0.3, and the evaluation value of "Transition" is 0.1. In the case of the voice recognition data shown in FIG. 2, the voice recognition result obtained by the voice recognition service is "the standard for going".
辞書データ記憶部13は、ユーザにより用意された辞書データを記憶する。辞書データは、音声認識結果の精度を向上させるためのデータある。本実施形態では、辞書データとして、文章データが記憶される。文章データは、発話者の発言に関連するものであるのが好ましい。
The dictionary
図3は、辞書データ記憶部13に記憶された文章データ(辞書データ)の一例を示す図である。図3の例では、辞書データとして、「リコーのサービスを開発する。」、「その企画はすでに検討済み。」、及び「今後の計画を早急に策定する必要がある。」という3つの文章データが記憶されている。
FIG. 3 is a diagram showing an example of sentence data (dictionary data) stored in the dictionary
検索部14は、音声認識データ及び辞書データをマッチングする。すなわち、検索部14は、音声認識データと、辞書データと、の一致する部分を検索する。検索部14による検索方法について、詳しくは後述する。
The
作成部15は、音声認識データと、検索部14による検索結果と、に基づいて、音声認識結果を作成する。作成部15による音声認識結果の作成方法について、詳しくは後述する。
The
次に、作成装置1のハードウェア構成について説明する。図4は、作成装置1のハードウェア構成の一例を示す図である。図4の作成装置1は、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、HDD(Hard Disk Drive)104と、を備える。また、作成装置1は、入力装置105と、表示装置106と、通信インタフェース107と、バス108と、を備える。
Next, the hardware configuration of the
CPU101は、プログラムを実行することにより、作成装置1の全体を制御し、上述の各機能構成を実現する。ROM102は、CPU101が実行するプログラムを含む各種のデータを記憶する。RAM103は、CPU101に作業領域を提供する。HDD104は、CPU101が実行するプログラムを含む各種のデータを記憶する。入力装置105は、ユーザからの操作に応じた情報を作成装置1に入力する。入力装置105は、例えば、キーボード、マウス、及びタッチパネルなどである。表示装置106は、映像や画像を表示する。表示装置106は、例えば、液晶ディスプレイや有機EL(Electro Luminescence)ディスプレイなどである。通信インタフェース107は、作成装置1を外部のネットワークに接続するためのインタフェースである。バス108は、CPU101と、ROM102と、RAM103と、HDD104と、入力装置105と、表示装置106と、通信インタフェース107と、を接続する。
By executing the program, the
次に、本実施形態に係る作成装置1の動作について説明する。図5は、作成装置1の動作の概要を示すフローチャートである。作成装置1は、入力部11に音声認識データを入力されると、図5の動作を開始する。
Next, the operation of the creating
まず、入力部11は、入力された音声認識データを、音声認識データ記憶部12に記憶させる(ステップS101)。これにより、図2のような音声認識データが音声認識データ記憶部12に記憶される。
First, the
次に、検索部14は、音声認識データ及び辞書データをマッチングする。そして、作成部15は、検索部14による検索結果と、音声認識データと、に基づいて音声認識結果を作成する(ステップS102)。
Next, the
図6は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。図6のフローチャートは、図5のステップS102の内部処理に相当する。以下では、音声認識データ記憶部12に図2の音声認識データが記憶され、辞書データ記憶部13に図3の文章データが記憶されているものとする。
FIG. 6 is a flowchart showing an example of a voice recognition result creation process in this embodiment. The flowchart of FIG. 6 corresponds to the internal processing of step S102 of FIG. In the following, it is assumed that the voice recognition
まず、検索部14は、音声認識データに含まれる分節テキストの中から、分節テキストを1つ選択する(ステップS201)。ここでは、「イコウ」が選択されたものとする。
First, the
次に、検索部14は、選択した分節テキストの語句の候補の中から、候補を1つ選択する(ステップS202)。ここでは、「行こう」が選択されたものとする。
Next, the
続いて、検索部14は、選択した候補を検索キーとして、文章データ(辞書データ)を検索する(ステップS203)。検索部14は、検索キー(選択した候補)と文章データとの一致件数を、検索結果として出力する。図3の文章データには「行こう」と一致する部分はないため、検索結果として0件が出力される。
Subsequently, the
検索部14が検索結果を出力すると、作成部15は、出力された検索結果に基づいて、選択中の候補の評価値を更新する(ステップS204)。本実施形態では、作成部15は、文章データとの一致件数が多いほど、評価値が高くなるように、評価値を更新する。評価値の更新方法は、任意である。以下では、元の評価値に一致件数を加算することにより、評価値を更新するものとする。この場合、「行こう」は、元の評価値が0.3であり、一致件数が0件であるから、更新後の評価値は0.3(=0.3+0)となる。
When the
検索部14は、検索が終了すると、ステップS201で選択した分節テキストの全候補が選択されたか(未選択の候補があるか)を確認する(ステップS205)。未選択の候補がある場合(ステップS205のNO)、処理はステップS202に戻る。そして、検索部14は、未選択の候補の中から次の候補を選択する(ステップS202)。これにより、「移行」が選択される。
When the search is completed, the
一方、全候補が選択された場合(ステップS205のYES)、検索部14は、音声認識データに含まれる全分節テキストが選択されたか(未選択の分節テキストがあるか)を確認する(ステップS206)。
On the other hand, when all candidates have been selected (YES in step S205), the
未選択の分節テキストがある場合(ステップS206のNO)、処理はステップS201に戻る。そして、検索部14は、未選択の分節テキストの中から、次の分節テキストを選択する(ステップS201)。これにより、「ノ」が選択される。
If there is an unselected segment text (NO in step S206), the process returns to step S201. Then, the
一方、全分節テキストが選択された場合(ステップS206のYES)、作成部15は、各分節テキストについて、評価値が最高の候補を選択し、選択した候補を連接する(ステップS207)。これにより、音声認識結果が作成される。
On the other hand, when all segment texts are selected (YES in step S206), the creating
図7は、音声認識データ記憶部12に記憶された音声認識データの一例を示す図である。図7の音声認識データは、図2の音声認識データの評価値を更新したものに相当する。図7の音声認識データの場合、「イコウ」の候補として「行こう」が選択され、「ノ」の候補として「の」が選択され、「キカク」の候補として「企画」が選択され、「ダ」の候補として「だ」が選択される。これにより、「行こうの企画だ」という音声認識結果が作成される。
FIG. 7 is a diagram showing an example of the voice recognition data stored in the voice recognition
作成部15が作成した「行こうの企画だ」という音声認識結果は、音声認識サービスにより得られた「行こうの規格だ」という音声認識結果に比べて、発言者が意図した「リコーの企画だ」という発言に近くなっていることがわかる。これは、文章データに基づいて評価値を更新した結果、「企画」の評価値が「規格」の評価値より高くなり、「キカク」という分節テキストに対応する語句として「企画」が選択されたためである。
The voice recognition result "I plan to go" created by the creating
このように、本実施形態によれば、音声認識サービスが出力した音声認識データと、ユーザが用意した文章データ(辞書データ)と、に基づいて、音声認識結果の精度を向上させることができる。言い換えると、本実施形態によれば、音声認識サービスに比べて、精度の高い音声認識結果を作成することができる。 As described above, according to this embodiment, the accuracy of the voice recognition result can be improved based on the voice recognition data output by the voice recognition service and the sentence data (dictionary data) prepared by the user. In other words, according to the present embodiment, it is possible to create a highly accurate voice recognition result as compared with the voice recognition service.
また、本実施形態によれば、辞書データは、文章データであるため、容易に用意することができる。すなわち、データを解析や加工を行うことなく、辞書データを用意することができる。 Further, according to the present embodiment, since the dictionary data is text data, it can be easily prepared. That is, dictionary data can be prepared without analyzing or processing the data.
なお、本実施形態では、語句の候補が1つしかない分節テキストは、選択を省略されてもよい。これは、候補が1つしかない場合、評価値の更新の有無にかかわらず、その候補が選択されるためである。 In the present embodiment, selection of segment text having only one word candidate may be omitted. This is because if there is only one candidate, that candidate is selected regardless of whether or not the evaluation value has been updated.
(第2実施形態)
第2実施形態に係る作成装置1について、図8及び図9を参照して説明する。本実施形態に係る作成装置1の機能構成及びハードウェア構成は、第1実施形態と同様である。ただし、本実施形態では、辞書データとして、文章データ及び同音語データが記憶され、この同音語データを利用して、音声認識結果が作成される。なお、文章データについては、上述の通りである。
(Second embodiment)
The
同音語データは、複数の同音語の組(以下、「同音語セット」という)を示すデータである。同音語データは、1つ又は複数の同音語セットを含み、各同音語セットには、複数の同音語が含まれる。 The homophone word data is data indicating a set of a plurality of homophone words (hereinafter referred to as “homophone set”). The homophone data includes one or a plurality of homophone sets, and each homophone set includes a plurality of homophones.
図8は、辞書データ記憶部13に記憶され同音語データ(辞書データ)の一例を示す図である。図8の例では、同音語データには、「キカク」、「ハシ」及び「ジショ」に対応する3つの同音語セットが含まれる。例えば、「キカク」に対応する同音語セットには、「企画」、「規格」及び「其角」の3つの同音語が含まれる。
FIG. 8 is a diagram showing an example of homophone data (dictionary data) stored in the dictionary
ここで、本実施形態に係る作成装置1の動作について説明する。本実施形態に係る作成装置1の動作の概要は、第1実施形態と同様である。図9は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。以下では、音声認識データ記憶部12に図2の音声認識データが記憶され、辞書データ記憶部13に図3の文章データ及び図8の同音語データが記憶されているものとする。
Here, the operation of the creating
まず、検索部14は、音声認識データに含まれる分節テキストの中から、分節テキストを1つ選択する(ステップS301)。ここでは、「キカク」が選択されたものとする。
First, the
次に、検索部14は、選択した分節テキストの語句の候補の中から、候補を1つ選択する(ステップS302)。ここでは、「企画」が選択されたものとする。
Next, the
続いて、検索部14は、選択した候補を検索キーとして、同音語データ(辞書データ)を検索する(ステップS303)。検索部14は、検索キー(選択した候補)を含む同音語セットを、検索結果として出力する。
Subsequently, the
検索キーを含む同音語セットがない場合(ステップS304のNO)、処理はステップS307に進む。 When there is no homophone set including the search key (NO in step S304), the process proceeds to step S307.
一方、検索キーを含む同音語セットがある場合(ステップS304のYES)、検索部14は、選択した同音語を検索キーとして、文章データ(辞書データ)を検索する(ステップS305)。検索部14は、検索キー(選択した候補)と文章データとの一致件数を、検索結果として出力する。図3の文章データには「企画」と一致する部分が1つあるため、検索結果として1件が出力される。
On the other hand, when there is a homophone set including the search key (YES in step S304), the
検索部14が検索結果を出力すると、作成部15は、出力された検索結果に基づいて、選択中の候補の評価値を更新する(ステップS306)。評価値の更新方法は、第1実施形態と同様である。この場合、「企画」は、元の評価値が0.4であり、一致件数が1件であるから、更新後の評価値は1.43(=0.4+1)となる。
When the
検索部14は、検索が終了すると、ステップS301で選択した分節テキストの全候補が選択されたか(未選択の候補があるか)を確認する(ステップS307)。未選択の候補がある場合(ステップS307のNO)、処理はステップS302に戻る。そして、検索部14は、未選択の候補の中から次の候補を選択する(ステップS302)。これにより、「規格」が選択される。
When the search is completed, the
一方、全候補が選択された場合(ステップS307のYES)、検索部14は、音声認識データに含まれる全分節テキストが選択されたか(未選択の分節テキストがあるか)を確認する(ステップS308)。
On the other hand, when all candidates are selected (YES in step S307), the
未選択の分節テキストがある場合(ステップS308のNO)、処理はステップS301に戻る。そして、検索部14は、未選択の分節テキストの中から、次の分節テキストを選択する(ステップS301)。これにより、「ダ」が選択される。
If there is an unselected segment text (NO in step S308), the process returns to step S301. Then, the
一方、全分節テキストが選択された場合(ステップS308のYES)、作成部15は、各分節テキストについて、評価値が最高の候補を選択し、選択した候補を連接する(ステップS309)。これにより、音声認識結果が作成される。図3の文章データ及び図8の同音語データを利用した場合、評価値の更新後の音声認識データは、図7の音声認識データと同様になる。これにより、「行こうの企画だ」という音声認識結果が作成される。
On the other hand, when all segment texts are selected (YES in step S308), the creating
以上説明した通り、本実施形態によれば、分節テキストの候補が同音語セットに含まれる場合、当該候補の評価値は更新される。言い換えると、分節テキストの候補が同音語セットに含まれない場合、当該候補の評価値は更新されない。これにより、過剰な評価値の更新を抑制し、精度が高い音声認識結果を作成することができる。 As described above, according to the present embodiment, when the segment text candidate is included in the homophone set, the evaluation value of the candidate is updated. In other words, when the segment text candidate is not included in the homophone set, the evaluation value of the candidate is not updated. As a result, it is possible to suppress excessive updating of the evaluation value and create a highly accurate voice recognition result.
(第3実施形態)
第3実施形態に係る作成装置1について、図10及び図11を参照して説明する。本実施形態に係る作成装置1の機能構成及びハードウェア構成は、第1実施形態と同様である。ただし、本実施形態では、辞書データとして、置換用データが記憶され、この置換用データを利用して、音声認識結果が作成される。
(Third Embodiment)
The
置換用データは、置換する語句(以下、「第1語句」という)と、置換される語句(以下、「第2語句」という)と、の対応関係を示すデータである。置換用データは、例えば、音声認識サービスにより得られた過去の音声認識結果における誤変換に基づいて用意される。 The replacement data is data indicating a correspondence relationship between a word/phrase to be replaced (hereinafter referred to as “first word/phrase”) and a word/phrase to be replaced (hereinafter referred to as “second word/phrase”). The replacement data is prepared, for example, based on the erroneous conversion in the past voice recognition result obtained by the voice recognition service.
図10は、辞書データ記憶部13に記憶された置換用データ(辞書データ)の一例を示す図である。図10の例では、「リコー」という第1語句に対して、「行こう」及び「移行」という第2語句が対応付けられている。また、「トピックモデル」という第1語句に対して、「いつも出る」という第2語句が対応付けられている。
FIG. 10 is a diagram showing an example of replacement data (dictionary data) stored in the dictionary
ここで、本実施形態に係る作成装置1の動作について説明する。本実施形態に係る作成装置1の動作の概要は、第1実施形態と同様である。図11は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。図11のフローチャートは、図5のステップS102の内部処理に相当する。以下では、音声認識データ記憶部12に図2の音声認識データが記憶され、辞書データ記憶部13に図10の置換用データが記憶されているものとする。
Here, the operation of the creating
まず、作成部15は、音声認識データを参照して、各分節テキストについて、評価値が最高の候補を選択し、選択した候補を連接することにより、音声認識結果を作成する(ステップS401)。この音声認識結果は、音声認識サービスにより得られる音声認識結果に相当する。すなわち、「行こうの規格だ」という音声認識結果が作成される。
First, the creating
次に、検索部14は、置換用データに含まれる第1語句テキストの中から、第1語句を1つ選択する(ステップS402)。ここでは、「リコー」が選択されたものとする。
Next, the
続いて、検索部14は、選択した第1語句に対応する第2語句の中から、第2語句を1つ選択する(ステップS403)。ここでは、「行こう」が選択されたものとする。
Subsequently, the
検索部14は、選択した第2語句を検索キーとして、作成部15が作成した音声認識結果を検索する(ステップS404)。検索部14は、検索キー(選択した第2語句)と音声認識結果との一致部分を検索結果として出力する。
The
検索部14が検索結果を出力すると、作成部15は、検索結果に基づいて、音声認識結果を更新する。具体的には、音声認識結果に第2語句と一致する部分がある場合(ステップS405のYES)、すなわち、音声認識結果に第2語句が含まれる場合、作成部15は、第2語句を対応する第1語句に置換する(ステップS406)。これにより、音声認識結果に含まれる「行こう」が「リコー」に置換される。その後、処理はステップS407に進む。
When the
一方、音声認識結果に第2語句と一致する部分がない場合(ステップS405のNO)、すなわち、音声認識結果に第2語句が含まれない場合、処理はステップS407に進む。 On the other hand, if the voice recognition result does not have a portion that matches the second word (NO in step S405), that is, if the voice recognition result does not include the second word, the process proceeds to step S407.
検索部14は、検索が終了すると、ステップS402で選択した第1語句に対応する全第2語句が選択されたか(未選択の第2語句があるか)を確認する(ステップS407)。未選択の第2語句がある場合(ステップS407のNO)、処理はステップS403に戻る。そして、検索部14は、未選択の第2語句の中から次の第2語句を選択する(ステップS403)。これにより、「移行」が選択される。
Upon completion of the search, the
一方、全第2語句が選択された場合(ステップS407のYES)、検索部14は、置換用データに含まれる全第1語句が選択されたか(未選択の第1語句があるか)を確認する(ステップS408)。
On the other hand, when all the second words are selected (YES in step S407), the
未選択の第1語句がある場合(ステップS408のNO)、処理はステップS402に戻る。そして、検索部14は、未選択の第1語句の中から、次の第1語句を選択する(ステップS402)。これにより、「トピックモデル」が選択される。
If there is an unselected first word/phrase (NO in step S408), the process returns to step S402. Then, the
一方、全第1語句が選択された場合(ステップS408のYES)、音声認識結果の作成処理が終了する。この時点で作成部15が保持している音声認識結果が、作成装置1により得られた音声認識結果となる。結果として、「リコーの規格だ」という音声認識結果が作成される。
On the other hand, if all the first words have been selected (YES in step S408), the voice recognition result creation process ends. The voice recognition result held by the creating
作成部15が作成した「リコーの規格だ」という音声認識結果は、音声認識サービスにより得られた「行こうの規格だ」という音声認識結果に比べて、発言者が意図した「リコーの企画だ」という発言に近くなっていることがわかる。これは、置換用データに基づいて語句を置換したことにより、「行こう」が「リコー」に置換されたためである。
The voice recognition result "Ricoh's standard" created by the creating
このように、本実施形態によれば、音声認識サービスが出力した音声認識データと、ユーザが用意した置換用データ(辞書データ)と、に基づいて、音声認識結果の精度を向上させることができる。言い換えると、本実施形態によれば、音声認識サービスに比べて、精度の高い音声認識結果を作成することができる。 As described above, according to the present embodiment, the accuracy of the voice recognition result can be improved based on the voice recognition data output by the voice recognition service and the replacement data (dictionary data) prepared by the user. .. In other words, according to the present embodiment, it is possible to create a highly accurate voice recognition result as compared with the voice recognition service.
また、本実施形態によれば、分節テキストを、音声認識データに語句の候補として含まれない語句に、変換することができる。 Further, according to this embodiment, the segment text can be converted into a phrase that is not included in the speech recognition data as a phrase candidate.
(第4実施形態)
第4実施形態に係る作成装置1について、図12を参照して説明する。本実施形態に係る作成装置1の機能構成及びハードウェア構成は、第1実施形態と同様である。ただし、本実施形態では、辞書データとして、文章データ及び置換用データが記憶され、この文章データ及び置換用データを利用して、音声認識結果が作成される。なお、文章データ及び置換用データについては、上述の通りである。
(Fourth Embodiment)
The
ここで、本実施形態に係る作成装置1の動作について説明する。本実施形態に係る作成装置1の動作の概要は、第1実施形態と同様である。図12は、本実施形態における音声認識結果の作成処理の一例を示すフローチャートである。図12のフローチャートは、図11のフローチャートに、ステップS409,S410を追加したものである。以下、ステップS409,S410について説明する。なお、音声認識データ記憶部12に図2の音声認識データが記憶され、辞書データ記憶部13に図3の文章データ及び図10の置換用データが記憶されているものとする。
Here, the operation of the creating
本実施形態では、音声認識結果に第2語句と一致する部分がある場合(ステップS405のYES)、検索部14は、第1近傍文字列及び第2近傍文字列を検索キーとして、文章データを検索する(ステップS409)。
In the present embodiment, when the voice recognition result has a portion that matches the second word (YES in step S405), the
第2近傍文字列は、音声認識結果における、第2語句及びその近傍文字列からなる文字列である。第2語句の近傍文字列とは、例えば、第2語句の直前又は直後の数文字の文字列のことである。第1近傍文字列は、第2近傍文字列に含まれる第2語句を、対応する第1語句に置換した文字列である。ここでは、第2近傍文字列は、第2語句及びその直後の1文字からなる文字列であるものとする。 The second neighboring character string is a character string including the second word and its neighboring character string in the voice recognition result. The neighborhood character string of the second word is, for example, a character string of several characters immediately before or after the second word. The first neighbor character string is a character string in which the second word/phrase included in the second neighbor character string is replaced with the corresponding first word/phrase. Here, the second neighborhood character string is assumed to be a character string consisting of the second word and one character immediately after it.
例えば、第1語句が「リコー」であり、第2語句が「行こう」であり、音声認識結果が「行こうの規格だ」である場合、第2近傍文字列は「行こうの」となり、第1近傍文字列は「リコーの」となる。 For example, when the first word is "Ricoh", the second word is "Let's go", and the voice recognition result is "Goko's standard", the second neighborhood character string is "Gokono". , The first neighborhood character string is “Ricoh's”.
検索部14は、検索キー(第1近傍文字列)と文章データとの一致件数R2を、検索結果として出力する。図3の文章データには「リコーの」と一致する部分が1つあるため、検索結果として1件が出力される。
The
また、検索部14は、検索キー(第2近傍文字列)と文章データとの一致件数R2を、検索結果として出力する。図3の文章データには「行こうの」と一致する部分がないため、検索結果として0件が出力される。
Further, the
作成部15は、一致件数R1が一致件数R2より大きい場合(ステップS410のYES)、第2語句を対応する第1語句に置換する(ステップS406)。その後、処理はステップS407に進む。一方、一致件数R1が一致件数R2以下である場合(ステップS410のNO)、処理はステップS407に進む。本実施形態では、一致件数R1が一致件数R2より大きいため、「行こう」が「リコー」に置換され、第3実施形態と同様に、「リコーの規格だ」という音声認識結果が作成される。
When the number of matches R1 is larger than the number of matches R2 (YES in step S410), the
以上説明した通り、本実施形態によれば、文章データに対する、第1近傍文字列の一致件数R1が、第2近傍文字列の一致件数R2より大きい場合、第2語句が第1語句に置換される。言い換えると、文章データに対する、第1近傍文字列の一致件数R1が、第2近傍文字列の一致件数R2以下である場合、第2語句が第1語句に置換されない。これにより、作成装置1は、第2語句の過剰な置換を抑制し、精度が高い音声認識結果を作成することができる。
As described above, according to the present embodiment, when the number of matches R1 of the first neighborhood character string with respect to the sentence data is larger than the number of matches R2 of the second neighborhood character string, the second word is replaced with the first word. It In other words, if the number of matches R1 of the first neighborhood character string to the text data is less than or equal to the number of matches R2 of the second neighborhood character string, the second word is not replaced with the first word. Thereby, the
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせなど、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。 It should be noted that the present invention is not limited to the configurations shown here, such as the combination of the configurations described in the above embodiments with other elements. These points can be changed without departing from the spirit of the present invention, and can be appropriately determined according to the application form.
1:音声認識結果作成装置
11:入力部
12:音声認識データ記憶部
13:辞書データ記憶部
14:検索部
15:作成部
1: Voice recognition result creation device 11: Input unit 12: Voice recognition data storage unit 13: Dictionary data storage unit 14: Search unit 15: Creation unit
Claims (8)
ユーザにより予め用意された辞書データを記憶する辞書データ記憶部と、
前記辞書データと、前記音声認識データと、の一致する部分を検索する検索部と、
検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成部と、
を備える音声認識結果作成装置。 An input unit for inputting voice recognition data including candidate words and phrases corresponding to each segment text and evaluation values of the respective candidates,
A dictionary data storage unit for storing dictionary data prepared in advance by the user,
A search unit that searches a matching portion of the dictionary data and the voice recognition data;
A creation unit that creates a voice recognition result based on the search result and the voice recognition data;
A voice recognition result creating device including.
請求項1に記載の音声認識結果作成装置。 The speech recognition result creation according to claim 1, wherein the creation unit creates the speech recognition result by selecting the candidate based on the evaluation value for each of the segment texts and connecting the selected candidates. apparatus.
前記検索部は、前記候補を検索キーとして前記文章データを検索し、
前記作成部は、前記候補及び前記文章データの一致件数に基づいて、当該候補の前記評価値を更新する
請求項1又は請求項2に記載の音声認識結果作成装置。 The dictionary data includes text data,
The search unit searches the sentence data using the candidate as a search key,
The speech recognition result creation device according to claim 1, wherein the creation unit updates the evaluation value of the candidate based on the number of matches between the candidate and the text data.
前記検索部は、前記候補を検索キーとして前記同音語データを検索し、当該候補を含む前記同音語セットがある場合、当該候補を検索キーとして前記文章データを検索する
請求項3に記載の音声認識結果作成装置。 The dictionary data includes homophone data including at least one homophone set including a plurality of homophones,
The voice according to claim 3, wherein the search unit searches the homonym data using the candidate as a search key, and if the homophone set including the candidate exists, searches the sentence data using the candidate as a search key. Recognition result creation device.
前記作成部は、前記各分節テキストについて、前記評価値に基づいて前記候補を選択し、選択した前記候補を連接することにより、前記音声認識結果を作成し、
前記検索部は、前記第2語句を検索キーとして前記音声認識結果を検索し、
前記作成部は、前記音声認識結果に前記第2語句が含まれる場合、当該第2語句を対応する前記第1語句に置換する
請求項1に記載の音声認識結果作成装置。 The dictionary data includes replacement data indicating a correspondence relationship between a first word to be replaced and a second word to be replaced,
The creating unit selects the candidate based on the evaluation value for each segment text, and connects the selected candidates to create the voice recognition result,
The search unit searches the voice recognition result using the second word or phrase as a search key,
The speech recognition result creating apparatus according to claim 1, wherein, when the speech recognition result includes the second word/phrase, the creating unit replaces the second word/phrase with the corresponding first word/phrase.
前記検索部は、前記第1語句を含む第1近傍文字列と、前記第2語句を含む第2近傍文字列と、を検索キーとして、前記文章データを検索し、
前記作成部は、前記第1近傍文字列及び前記文章データの一致件数が、前記第2近傍文字列及び前記文章データの一致件数より多い場合、当該第2語句を対応する前記第1語句に置換する
請求項5に記載の音声認識結果作成装置。 The dictionary data includes text data,
The search unit searches the sentence data using a first neighborhood character string including the first word and a second neighborhood character string including the second word as a search key.
When the number of matches of the first neighborhood character string and the sentence data is greater than the number of matches of the second neighborhood character string and the sentence data, the creation unit replaces the second phrase with the corresponding first phrase. The speech recognition result creation device according to claim 5.
ユーザにより予め用意された辞書データと、前記音声認識データと、の一致する部分を検索する検索工程と、
検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成工程と、
を含む音声認識結果作成方法。 An input step of inputting speech recognition data including candidate words and phrases corresponding to each segment text and evaluation values of the respective candidates;
A search step of searching a matching portion of the dictionary data prepared in advance by the user and the voice recognition data;
A creation step of creating a voice recognition result based on the search result and the voice recognition data;
A method for creating a voice recognition result including.
ユーザにより予め用意された辞書データと、前記音声認識データと、の一致する部分を検索する検索工程と、
検索結果と、前記音声認識データと、に基づいて、音声認識結果を作成する作成工程と、
をコンピュータに実行させるためのプログラム。 An input step of inputting speech recognition data including candidate words and phrases corresponding to each segment text and evaluation values of the respective candidates;
A search step of searching a matching portion of the dictionary data prepared in advance by the user and the voice recognition data;
A creation step of creating a voice recognition result based on the search result and the voice recognition data;
A program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016187778A JP6702119B2 (en) | 2016-09-27 | 2016-09-27 | Speech recognition result creating device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016187778A JP6702119B2 (en) | 2016-09-27 | 2016-09-27 | Speech recognition result creating device, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018054717A JP2018054717A (en) | 2018-04-05 |
JP6702119B2 true JP6702119B2 (en) | 2020-05-27 |
Family
ID=61835679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016187778A Active JP6702119B2 (en) | 2016-09-27 | 2016-09-27 | Speech recognition result creating device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6702119B2 (en) |
-
2016
- 2016-09-27 JP JP2016187778A patent/JP6702119B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018054717A (en) | 2018-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789529B2 (en) | Neural network data entry system | |
JP5362095B2 (en) | Input method editor | |
US8543375B2 (en) | Multi-mode input method editor | |
US9824085B2 (en) | Personal language model for input method editor | |
US9779080B2 (en) | Text auto-correction via N-grams | |
JP5802292B2 (en) | Shared language model | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
US20150169537A1 (en) | Using statistical language models to improve text input | |
JP2010520531A (en) | Integrated pinyin and image input | |
WO2016082096A1 (en) | System and method for predictive text entry using n-gram language model | |
JPWO2007069762A1 (en) | Similar sentence search method, similar sentence search system, and similar sentence search program | |
JP2010520532A (en) | Input stroke count | |
US10387543B2 (en) | Phoneme-to-grapheme mapping systems and methods | |
JP2007156545A (en) | Symbol string conversion method, word translation method, its device, its program and recording medium | |
JP6702119B2 (en) | Speech recognition result creating device, method and program | |
JP4845523B2 (en) | Character processing apparatus, method, program, and recording medium | |
JP5629543B2 (en) | Character string conversion device, character string conversion method, computer program, and recording medium | |
CN105683873A (en) | Fault-tolerant input method editor | |
CN106709294B (en) | User authentication method and device | |
KR101645674B1 (en) | Method for autocomplete candidate word and apparatus thereof | |
JP6221275B2 (en) | Character input program and character input device | |
JP6876658B2 (en) | Facility name search device, facility name search method and computer program | |
KR100910302B1 (en) | Apparatus and method for searching information based on multimodal | |
JP2002297577A (en) | Apparatus, and method of input conversion processing for chinese language and program therefor | |
JP5573257B2 (en) | Character input program and communication terminal device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200407 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200420 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6702119 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |