JP2017134162A - Voice recognition device, voice recognition method, and voice recognition program - Google Patents
Voice recognition device, voice recognition method, and voice recognition program Download PDFInfo
- Publication number
- JP2017134162A JP2017134162A JP2016012466A JP2016012466A JP2017134162A JP 2017134162 A JP2017134162 A JP 2017134162A JP 2016012466 A JP2016012466 A JP 2016012466A JP 2016012466 A JP2016012466 A JP 2016012466A JP 2017134162 A JP2017134162 A JP 2017134162A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- voice
- text data
- correction
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、音声認識装置、音声認識方法、及び音声認識プログラムに関する。 The present invention relates to a voice recognition device, a voice recognition method, and a voice recognition program.
従来、端末での通話音声等を後から素早く振り返ることを目的とし、音声認識サーバに搭載した音声認識エンジンを利用して、通話音声等をテキスト化する技術が知られている。 2. Description of the Related Art Conventionally, there has been known a technique for converting a call voice or the like into text using a voice recognition engine installed in a voice recognition server for the purpose of quickly looking back on the call voice or the like at a terminal.
音声認識エンジンでは、特徴点からずれた発声を行う話者の場合、音声認識の精度が低下する。例えば滑舌が悪い人が発音した「聞き逃し発生(ききのがしはっせい)」の音声は、「機能足発生(きのうあしはっせい)」等と誤認識される場合がある。そのため、話者の音声の特徴を音声認識エンジンに学習させることで音声認識の精度を向上させる技術が知られている(例えば、特許文献1参照)。 In the speech recognition engine, the accuracy of speech recognition is reduced in the case of a speaker who makes utterances deviating from feature points. For example, a voice of “Occurrence of missed hearing” (pronounced by a person with a bad tongue) may be erroneously recognized as “occurrence of a functional foot”. For this reason, a technique for improving the accuracy of speech recognition by causing a speech recognition engine to learn the features of the speech of a speaker is known (see, for example, Patent Document 1).
しかしながら、特定の話者の音声の特徴を音声認識エンジンに学習させるためには、当該話者の数十時間分の音声を入力させる必要がある場合もある。また、特定の話者の音声の特徴に基づいた音声認識を行う場合、音声認識サーバ側の処理負荷が高まるという問題がある。 However, in order for the voice recognition engine to learn the characteristics of the voice of a specific speaker, it may be necessary to input the voice of the speaker for several tens of hours. Further, when performing speech recognition based on the characteristics of a specific speaker's voice, there is a problem that the processing load on the voice recognition server increases.
そこで、一側面では、音声認識を実行する外部装置の処理負荷を高めずに、音声認識の精度を向上させることを目的とする。 Therefore, an object of one aspect is to improve the accuracy of speech recognition without increasing the processing load of an external device that performs speech recognition.
一つの案では、音声認識装置において、音声を入力する端末から受信した音声データと、前記端末に関する識別情報とを対応付けて記録する記録部と、外部装置から、前記音声データを音声認識した結果であるテキストデータを取得する取得部と、前記識別情報に応じた、文字列の補正辞書を用いて、前記テキストデータに含まれる文字列を補正する補正部と、を備える。 In one proposal, in the speech recognition apparatus, a result of speech recognition of the speech data from an external device and a recording unit that records speech data received from a terminal that inputs speech and identification information related to the terminal. An acquisition unit that acquires the text data, and a correction unit that corrects a character string included in the text data by using a character string correction dictionary according to the identification information.
一側面によれば、音声認識を実行する外部装置の処理負荷を高めずに、音声認識の精度を向上させることができる。 According to one aspect, the accuracy of speech recognition can be improved without increasing the processing load on an external device that performs speech recognition.
以下、図面に基づいて本発明の実施形態を説明する。図1は、本発明の実施形態における音声認識システムの構成例を示す図である。図1において、音声認識システム1は、音声認識装置10、電話機20、及び音声認識サーバ30(「外部装置」の一例)を含む。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram illustrating a configuration example of a voice recognition system according to an embodiment of the present invention. In FIG. 1, the
音声認識装置10と電話機20とは、公衆電話網、携帯電話網、インターネット等の通信回線によって通信可能に接続される。
The
音声認識装置10と音声認識サーバ30とは、インターネット等の通信回線によって通信可能に接続される。
The
音声認識装置10は、例えば、スマートフォン、タブレット型端末、携帯電話、PC(Personal Computer)等である。
The
音声認識装置10は、電話機20から受信した通話等の音声を録音し、録音した音声の音声認識を音声認識サーバ30に実行させる。音声認識装置10は、音声認識結果のテキストデータを、通話相手に応じた辞書に基づいて補正する。なお、音声認識装置10は、電話機20と同様の端末でもよい。
The
電話機20は、例えば、スマートフォン、携帯電話、固定電話、IP電話機、PC(Personal Computer)等である。電話機20は、音声、留守番電話、及びボイスメッセージ等により、音声認識装置10に音声を送信(入力)する。
The
音声認識サーバ30は、音声認識装置10から受信した音声データを音声認識し、音声認識結果のテキストデータを、音声認識装置10に送信する。なお、音声認識サーバ30における音声認識の処理は、公知の技術を用いて行われてもよい。
The
図2は、実施の形態における音声認識装置10のハードウェア構成例を示す図である。図2の音声認識装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
音声認識装置10での処理を実現する音声認識プログラムは、SDメモリカード等の記録媒体101によって提供される。音声認識プログラムを記録した記録媒体101がドライブ装置100にセットされると、音声認識プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、音声認識プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされた音声認識プログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って音声認識装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はタッチパネル及びボタン等、またはキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。
FIG. 2 is a diagram illustrating a hardware configuration example of the
A voice recognition program for realizing processing in the
The
なお、記録媒体101の一例としては、SDメモリカード、CD−ROM、DVDディスク、又はUSBメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置102の一例としては、HDD(Hard Disk Drive)又はフラッシュメモリ等が挙げられる。記録媒体101及び補助記憶装置102のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。
An example of the
音声認識サーバ30のハードウェア構成は、サーバ用のコンピュータのハードウェア構成であり、図2に示す音声認識装置10のハードウェア構成例と同様でもよい。
The hardware configuration of the
次に、図3を参照し、音声認識装置10の機能構成について説明する。図3は、音声認識装置10の機能ブロック図である。音声認識装置10は、通信部11、記録部13、取得部14、補正部15、及び登録部16を有する。これら各部は、音声認識装置10にインストールされた1以上のプログラムが、音声認識装置10のCPU104に実行させる処理により実現される。
Next, the functional configuration of the
また、音声認識装置10は、録音データ記憶部12A、音声認識結果記憶部12B、及び補正辞書記憶部12C等を有する。これら各記憶部は、例えば、補助記憶装置102等を用いて実現される。
The
図4は、録音データ記憶部12Aに記憶されるデータの一例を示す図である。録音データ記憶部12Aには、通話等の音声データの送信元の識別情報に対応付けて、当該送信元から受信した音声データが記憶される。なお、音声データの送信元の識別情報は、電話機20を識別する情報、または電話機20のユーザを識別する情報であり、例えば、音声データの送信元である電話機20の電話番号や、電話機20のユーザのアカウントID等である。
FIG. 4 is a diagram illustrating an example of data stored in the recording
図5は、音声認識結果記憶部12Bに記憶されるデータの一例を示す図である。音声認識結果記憶部12Bには、音声データの送信元の識別情報に対応付けて、音声認識サーバ30による当該音声データに対する音声認識結果であるテキストデータが記憶される。また、当該テキストデータに含まれる文字列について補正が必要な場合は、補正部15によって補正されたテキストデータが記憶される。
FIG. 5 is a diagram illustrating an example of data stored in the speech recognition
図6は、補正辞書記憶部12Cに記憶されるデータの一例を示す図である。補正辞書記憶部12Cには、音声の送信元の識別情報毎に、補正辞書が記憶される。補正辞書は、「補正前の文字列」、「補正後の文字列」、「文節内名詞」のデータ項目を含む。
FIG. 6 is a diagram illustrating an example of data stored in the correction
「補正前の文字列」は、音声認識サーバ30による音声認識結果であるテキストデータ中で、補正対象とされた文字列である。「補正後の文字列」は、「補正前の文字列」を置換により補正する文字列である。「文節内名詞」は、「補正前の文字列」とともに使用される可能性が高い文字列である。
The “character string before correction” is a character string that is a correction target in text data that is a voice recognition result by the
図3に戻る。通信部11は、電話機20や音声認識サーバ30との通信を行う。
Returning to FIG. The communication unit 11 communicates with the
記録部13は、電話機20から受信した、通話音声、留守番電話の音声、及びボイスメッセージ等の音声データと、発着信時に取得した電話番号やアカウントID等の、電話機20に関する識別情報とを対応付けて、録音データ記憶部12Aに記録する。
The
取得部14は、録音データ記憶部12Aに格納されている音声データを音声認識サーバ30に送信し、音声認識サーバ30から、当該音声データを音声認識した結果であるテキストデータを受信し、音声認識結果記憶部12Bに格納する。なお、音声認識装置10にて、録音データ記憶部12Aに格納された音声データを音声認識する構成としてもよい。
The
補正部15は、音声の送信元である電話機20に関する識別情報に応じた補正辞書を用いて、取得部14により取得され、音声認識結果記憶部12Bに格納されているテキストデータに含まれる文字列を補正する。補正部15は、当該テキストデータに含まれる第1の文字列を、当該補正辞書において第1の文字列に対応付けて登録されている第2の文字列に置換することにより、文字列を補正する。
The
補正部15は、当該テキストデータに、補正辞書記憶部12Cに登録されている「補正前の文字列」及び「文節内名詞」が含まれる場合、当該「補正前の文字列」の文字列について補正を行う。
When the text data includes “character string before correction” and “noun in phrase” registered in the correction
補正部15は、補正後のテキストデータを、音声認識結果記憶部12Bにおいて、補正前のテキストデータに上書きして格納する。
The
登録部16は、ユーザから、取得部14によって取得されたテキストデータに含まれるいずれかの文字列に対する編集操作を受け付けると、当該テキストデータに対応する識別情報に応じた補正辞書に、編集前の文字列に対応付けて編集後の文字列を登録する。
When the
より詳細には、登録部16は、当該編集操作を受け付けると、補正辞書記憶部12Cにおいて、発着信履歴や電話帳から取得した、音声の送信元の識別情報に対応付けられた補正辞書にアクセスする。そして、登録部16は、当該テキストデータの文節から、編集前の文字列とは別の文字列である名詞等を抽出し、編集前の文字列と当該別の文字列とに対応付けて、編集後の文字列を、当該補正辞書に登録する。ここで、登録部16は、編集前の文字列、別の文字列、編集後の文字列を、当該補正辞書の「補正前の文字列」、「文節内名詞」及び「補正後の文字列」の項目にそれぞれ登録する。
More specifically, upon receiving the editing operation, the
次に、図7を参照して、録音した通話音声を認識する際の処理について説明する。図7は、録音した通話音声を認識する処理のシーケンス図である。 Next, processing for recognizing a recorded call voice will be described with reference to FIG. FIG. 7 is a sequence diagram of processing for recognizing a recorded call voice.
ステップS101において、音声認識装置10は、電話機20との間の通話を開始する。
In step S <b> 101, the
続いて、電話機20は、音声認識装置10に、通話音声を送信する(ステップS102)。
Subsequently, the
続いて、音声認識装置10は、電話機20からの通話音声を録音する(ステップS103)。
Subsequently, the
続いて、音声認識装置10は、電話機20との間の通話を終了する(ステップS104)。
Subsequently, the
続いて、音声認識装置10は、電話機20からの通話音声が録音された音声データを、音声認識サーバ30に送信する(ステップS105)。
Subsequently, the
続いて、音声認識サーバ30は、受信した音声データについて音声認識を実行し、音声認識結果であるテキストデータを生成する(ステップS106)。
Subsequently, the
続いて、音声認識サーバ30は、音声認識結果のテキストデータを、音声認識装置10に送信する(ステップS107)。
Subsequently, the
続いて、音声認識装置10は、補正辞書記憶部12Cに格納される音声の送信元の識別情報に応じた補正辞書に基づいて、受信した音声認識結果のテキストデータについて補正処理を行う(ステップS108)。
Subsequently, the
続いて、音声認識装置10は、補正した結果のテキストデータを表示装置106に表示する(ステップS109)。
Subsequently, the
続いて、音声認識装置10は、ユーザから、テキストデータに対する編集(修正)操作を受け付ける(ステップS110)。
Subsequently, the
続いて、音声認識装置10は、補正辞書記憶部12Cに、通話音声の送信元の識別情報に対応付けて、「修正前の文字列」、「修正後の文字列」等を登録する(ステップS111)。
Subsequently, the
次に、図8を参照して、音声認識結果の補正処理の詳細例について説明する。図8は、音声認識結果の補正処理の一例を示すフローチャートである。 Next, a detailed example of the speech recognition result correction process will be described with reference to FIG. FIG. 8 is a flowchart illustrating an example of a speech recognition result correction process.
ステップS201において、取得部14は、音声認識結果のテキストデータを取得する。
In step S201, the
続いて、補正部15は、発着信履歴や電話帳から、音声の送信元の識別情報を取得する(ステップS202)。
Subsequently, the
続いて、補正部15は、補正辞書記憶部12Cを参照し、通話音声の送信元の識別情報に応じた補正辞書を取得する(ステップS203)。
Subsequently, the
続いて、補正部15は、音声認識結果のテキストデータを形態素解析し、テキストデータに含まれる各文節を所定の単位の文字列に分解する(ステップS204)。
Subsequently, the
続いて、補正部15は、分解した文字列の中から、名詞である文字列を抽出する(ステップS205)。なお、抽出した各文字列の集合を、以下で「文字列集合L」という。
Subsequently, the correcting
続いて、補正部15は、抽出した名詞の各文字列(文字列集合Lに含まれる各文字列)が、補正辞書の「補正前の文字列」に登録されているか判定する(ステップS206)。
Subsequently, the correcting
抽出した名詞の各文字列が登録されている場合(ステップS206でYES)、補正部15は、当該各文字列を、文字列集合Lから除外する(ステップS207)。
When each character string of the extracted noun is registered (YES in step S206), the
続いて、補正部15は、除外されずに残っている名詞の各文字列が、予め記憶されている「時相名詞」等の文字列であるか判定する(ステップS208)。
Subsequently, the
判定対象とされた各文字列が、予め記憶されている文字列である場合(ステップS208でYES)、補正部15は、当該各文字列を、文字列集合Lから除外する(ステップS209)。
When each character string to be determined is a character string stored in advance (YES in step S208), the
続いて、補正部15は、除外されずに残っている名詞の文字列を、「文節内名詞」として抽出する(ステップS210)。
Subsequently, the correcting
続いて、補正部15は、ステップS207で除外した、補正辞書に登録されている名詞の各文字列と、ステップS210で抽出した「文節内名詞」の文字列の組が、補正辞書の「補正前の文字列」及び「文節内名詞」にそれぞれ登録されているか判定する(ステップS211)。
Subsequently, the correcting
当該文字列の組が登録されていれば、(ステップS211でYES)、補正部15は、音声認識結果のテキストデータに含まれる文字列のうち、ステップS207で除外した「補正前の文字列」を、補正辞書の「補正後の文字列」に補正(置換)する(ステップS212)。
If the set of the character strings is registered (YES in step S211), the
続いて、補正部15は、補正した後のテキストデータを、音声認識結果記憶部12Bに格納する(ステップS213)。
Subsequently, the
次に、図9を参照して、音声認識結果の補正処理の具体例について説明する。図9は、音声認識結果の補正処理の具体例を説明する図である。 Next, a specific example of the speech recognition result correction process will be described with reference to FIG. FIG. 9 is a diagram illustrating a specific example of the speech recognition result correction process.
図9には、補正部15が、図8のステップS201において、「先日の打ち合わせで機能足が発生したでしょ。」という文節を含むテキストデータを取得した例が示されている。
FIG. 9 illustrates an example in which the
この場合、補正部15は、図8のステップS204で、当該文節を形態素解析して当該文節を所定の単位の文字列に分解する。補正部15は、図8のステップS205で、分解した文字列の中から、名詞を抽出する。図9では、例えば、「先日」、「機能」、「足」、及び「発生」が、名詞として抽出される。なお、文節を形態素解析して名詞を抽出する処理は、公知の技術を用いて行われてもよい。
In this case, the
補正部15は、図8のステップS207で、抽出された名詞のうち、「機能」と「足」が連続しており、「機能足」が補正前単語であるため、「機能」及び「足」を除外する。それにより「先日」及び「発生」が残る。補正部15は、図8のステップS209で、「先日」が予め記憶されている「時相名詞」等の文字列であり、補正対象の文字列と同時に使用される確率が低いため、「先日」を除外する。それにより「発生」が残る。その結果、図8のステップS210で、「文節内名詞」として「発生」が抽出される。
In step S207 of FIG. 8, the correcting
補正部15は、図8のステップS212で、「機能足」の文字列を、「聞き逃し」の文字列に補正する。補正部15は、図8のステップS213で、「先日の打ち合わせで聞き逃しが発生したでしょ。」というテキストデータを、音声認識結果記憶部12Bに格納する。
In step S212 of FIG. 8, the correcting
次に、図10を参照して、補正辞書記憶部12Cの登録処理の詳細例について説明する。図10は、補正辞書の登録処理の一例を示すフローチャートである。
Next, a detailed example of registration processing in the correction
登録部16は、音声認識結果記憶部12Bに格納されているテキストデータを画面に表示する(ステップS301)。
The
続いて、登録部16は、ユーザからの、当該テキストデータに対する編集操作を受け付ける(ステップS302)。
Subsequently, the
続いて、登録部16は、当該テキストデータにおいて編集操作とされた文字列を含む文節の中から、「文節内名詞」を抽出する(ステップS303)。なお、「文節内名詞」の抽出は、図8のステップS202〜ステップS210と同様の処理により行う。
Subsequently, the
続いて、登録部16は、発着信履歴や電話帳から取得した音声の送信元の識別情報に対応付けて、編集前の文字列、編集後の文字列、ステップS303で抽出した「文節内名詞」を、補正辞書記憶部12Cの「補正前の文字列」、「補正後の文字列」、「文節内名詞」の項目にそれぞれ登録する(ステップS304)。
Subsequently, the
次に、図11を参照して、補正辞書の登録処理の具体例について説明する。図11は、補正辞書の登録処理の具体例を示す図である。 Next, a specific example of the correction dictionary registration process will be described with reference to FIG. FIG. 11 shows a specific example of correction dictionary registration processing.
図11(A)は、図10のステップS301で、音声認識結果記憶部12Bに格納されているテキストデータを画面に表示している際の表示画面例である。図11(A)の例では、「聞き逃しが発生したでしょ。」というテキストデータ501が表示されている。図11(B)〜図11(E)は、図10のステップS302で、テキストデータに対する編集操作を受け付ける際の操作と表示画面例を示す図である。
FIG. 11A is a display screen example when the text data stored in the speech recognition
例えば、図11(B)のように、登録部16は、誤認識された文字列502の選択操作を受け付ける。続いて、図11(C)のように登録部16は、選択された文字列502の長押し操作を受け付ける。続いて、登録部16は、図11(D)のように、「補正辞書に登録」する旨のポップアップメニュー503を表示し、当該ポップアップメニュー503の押下操作を受け付ける。続いて、登録部16は、図11(D)のように、補正前の文字列502と、補正後の文字列の入力欄505を表示し、入力欄505への補正後の文字列の入力操作を受け付ける。
For example, as illustrated in FIG. 11B, the
その後、登録部16は、発着信履歴や電話帳から取得した音声の送信元の識別情報に対応付けて、ユーザが入力した「補正前の文字列」及び「補正後の文字列」と、抽出した「文節内名詞」とを補正辞書記憶部12Cに登録する。
After that, the
<まとめ>
本実施形態では、音声認識装置10は、音声の送信元に応じた補正辞書に基づいて、音声認識サーバ30から取得した音声認識結果のテキストデータに含まれる文字列を補正する。
<Summary>
In the present embodiment, the
それにより、音声認識サーバ30側の処理負荷を高めずに、音声認識の精度を向上させることができる。また、電話番号等である音声の送信元の識別情報を、音声認識サーバ30等の外部装置に送出する必要がないため、情報のセキュリティーも確保できる。
Thereby, the accuracy of voice recognition can be improved without increasing the processing load on the
また、補正辞書に、「補正前の文字列」とともに使用される可能性が高い文字列である「文節内名詞」を含め、音声認識結果のテキストデータに、「補正前の文字列」と「文節内名詞」が含まれる場合に、「補正前の文字列」を「補正後の文字列」に補正する。それにより、誤った補正処理を抑えることができる。 In addition, the correction dictionary includes “noun in phrase” which is a character string that is likely to be used together with “character string before correction”, and “text string before correction” and “ When “noun in phrase” is included, “character string before correction” is corrected to “character string after correction”. Thereby, erroneous correction processing can be suppressed.
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 As mentioned above, although the Example of this invention was explained in full detail, this invention is not limited to such specific embodiment, In the range of the summary of this invention described in the claim, various deformation | transformation・ Change is possible.
以上の説明に関し、更に以下の項を開示する。
(付記1)
音声を入力する端末から受信した音声データと、前記端末に関する識別情報とを対応付けて記録する記録部と、
外部装置から、前記音声データを音声認識した結果であるテキストデータを取得する取得部と、
前記識別情報に応じた、文字列の補正辞書を用いて、前記テキストデータに含まれる文字列を補正する補正部と、
を備えることを特徴とする音声認識装置。
(付記2)
前記補正部は、前記テキストデータに含まれる第1の文字列を、前記補正辞書において前記第1の文字列に対応付けて登録されている第2の文字列に補正することを特徴とする、付記1記載の音声認識装置。
(付記3)
前記取得部によって取得されたテキストデータに含まれるいずれかの文字列に対する編集操作を受け付けると、当該テキストデータに対応する前記識別情報に応じた補正辞書に、編集前の文字列に対応付けて編集後の文字列を登録する登録部を備えることを特徴とする、付記1または2記載の音声認識装置。
(付記4)
前記登録部は、前記取得部によって取得されたテキストデータに含まれるいずれかの文字列に対する編集操作を受け付けると、当該テキストデータから、前記編集前の文字列とは別の文字列を抽出し、前記編集前の文字列と前記別の文字列とに対応付けて、前記編集後の文字列を、当該テキストデータに対応する前記識別情報に応じた補正辞書に登録し、
前記補正部は、前記外部装置から取得されたテキストデータに、前記編集前の文字列及び前記別の文字列が含まれる場合、前記編集前の文字列について補正を行うことを特徴とする、付記3に記載の音声認識装置。
(付記5)
音声認識装置が、
音声を入力する端末から受信した音声データと、前記端末に関する識別情報とを対応付けて記録する処理と、
外部装置から、前記音声データを音声認識した結果であるテキストデータを取得する処理と、
前記識別情報に応じた、文字列の補正辞書を用いて、前記テキストデータに含まれる文字列を補正する処理と、
を実行することを特徴とする音声認識方法。
(付記6)
前記補正する処理は、前記テキストデータに含まれる第1の文字列を、前記補正辞書において前記第1の文字列に対応付けて登録されている第2の文字列に補正することを特徴とする、付記5記載の音声認識方法。
(付記7)
前記取得する処理によって取得されたテキストデータに含まれるいずれかの文字列に対する編集操作を受け付けると、当該テキストデータに対応する前記識別情報に応じた補正辞書に、編集前の文字列に対応付けて編集後の文字列を登録する処理を実行することを特徴とする、付記5または6記載の音声認識方法。
(付記8)
前記登録する処理は、前記取得する処理によって取得されたテキストデータに含まれるいずれかの文字列に対する編集操作を受け付けると、当該テキストデータから、前記編集前の文字列とは別の文字列を抽出し、前記編集前の文字列と前記別の文字列とに対応付けて、前記編集後の文字列を、当該テキストデータに対応する前記識別情報に応じた補正辞書に登録し、
前記補正する処理は、前記外部装置から取得されたテキストデータに、前記編集前の文字列及び前記別の文字列が含まれる場合、前記編集前の文字列について補正をすることを特徴とする、付記7に記載の音声認識方法。
(付記9)
音声認識装置に、
音声を入力する端末から受信した音声データと、前記端末に関する識別情報とを対応付けて記録する処理と、
外部装置から、前記音声データを音声認識した結果であるテキストデータを取得する処理と、
前記識別情報に応じた、文字列の補正辞書を用いて、前記テキストデータに含まれる文字列を補正する処理と、
を実行させることを特徴とする音声認識プログラム。
(付記10)
前記補正する処理は、前記テキストデータに含まれる第1の文字列を、前記補正辞書において前記第1の文字列に対応付けて登録されている第2の文字列に補正することを特徴とする、付記9記載の音声認識プログラム。
(付記11)
前記取得する処理によって取得されたテキストデータに含まれるいずれかの文字列に対する編集操作を受け付けると、当該テキストデータに対応する前記識別情報に応じた補正辞書に、編集前の文字列に対応付けて編集後の文字列を登録する処理を実行することを特徴とする、付記9または10記載の音声認識プログラム。
(付記12)
前記登録する処理は、前記取得する処理によって取得されたテキストデータに含まれるいずれかの文字列に対する編集操作を受け付けると、当該テキストデータから、前記編集前の文字列とは別の文字列を抽出し、前記編集前の文字列と前記別の文字列とに対応付けて、前記編集後の文字列を、当該テキストデータに対応する前記識別情報に応じた補正辞書に登録し、
前記補正する処理は、前記外部装置から取得されたテキストデータに、前記編集前の文字列及び前記別の文字列が含まれる場合、前記編集前の文字列について補正をすることを特徴とする、付記11に記載の音声認識プログラム。
Regarding the above description, the following items are further disclosed.
(Appendix 1)
A recording unit that records voice data received from a terminal that inputs voice and identification information about the terminal in association with each other;
An acquisition unit that acquires text data that is a result of voice recognition of the voice data from an external device;
A correction unit that corrects a character string included in the text data using a character string correction dictionary according to the identification information;
A speech recognition apparatus comprising:
(Appendix 2)
The correction unit corrects the first character string included in the text data to a second character string registered in association with the first character string in the correction dictionary. The speech recognition apparatus according to
(Appendix 3)
When an editing operation on any character string included in the text data acquired by the acquisition unit is accepted, editing is performed in association with the character string before editing in the correction dictionary corresponding to the identification information corresponding to the text data. The speech recognition apparatus according to
(Appendix 4)
When the registration unit accepts an editing operation on any of the character strings included in the text data acquired by the acquisition unit, the registration unit extracts a character string different from the character string before the editing from the text data, In association with the character string before editing and the other character string, the edited character string is registered in the correction dictionary corresponding to the identification information corresponding to the text data,
The correction unit corrects the character string before editing when the character string before editing and the other character string are included in the text data acquired from the external device. 4. The speech recognition device according to 3.
(Appendix 5)
Voice recognition device
A process of associating and recording voice data received from a terminal that inputs voice and identification information about the terminal;
Processing to obtain text data as a result of voice recognition of the voice data from an external device;
A process of correcting a character string included in the text data using a character string correction dictionary according to the identification information;
The voice recognition method characterized by performing.
(Appendix 6)
In the correcting process, the first character string included in the text data is corrected to a second character string registered in association with the first character string in the correction dictionary. The speech recognition method according to appendix 5.
(Appendix 7)
When an editing operation on any character string included in the text data acquired by the acquisition process is received, the correction dictionary corresponding to the identification information corresponding to the text data is associated with the character string before editing. The speech recognition method according to appendix 5 or 6, wherein a process of registering the edited character string is executed.
(Appendix 8)
When the registering process accepts an editing operation on any of the character strings included in the text data acquired by the acquiring process, the character string different from the character string before the editing is extracted from the text data. Then, in association with the character string before editing and the other character string, the edited character string is registered in a correction dictionary corresponding to the identification information corresponding to the text data,
In the correction process, when the text data acquired from the external device includes the character string before editing and the other character string, the correction is performed on the character string before editing. The speech recognition method according to appendix 7.
(Appendix 9)
In voice recognition device,
A process of associating and recording voice data received from a terminal that inputs voice and identification information about the terminal;
Processing to obtain text data as a result of voice recognition of the voice data from an external device;
A process of correcting a character string included in the text data using a character string correction dictionary according to the identification information;
A speech recognition program characterized in that
(Appendix 10)
In the correcting process, the first character string included in the text data is corrected to a second character string registered in association with the first character string in the correction dictionary. The voice recognition program according to appendix 9.
(Appendix 11)
When an editing operation on any character string included in the text data acquired by the acquisition process is received, the correction dictionary corresponding to the identification information corresponding to the text data is associated with the character string before editing. The speech recognition program according to
(Appendix 12)
When the registering process accepts an editing operation on any of the character strings included in the text data acquired by the acquiring process, the character string different from the character string before the editing is extracted from the text data. Then, in association with the character string before editing and the other character string, the edited character string is registered in a correction dictionary corresponding to the identification information corresponding to the text data,
In the correction process, when the text data acquired from the external device includes the character string before editing and the other character string, the correction is performed on the character string before editing. The speech recognition program according to attachment 11.
10 音声認識装置
11 通信部
12 記憶部
12A 録音データ
12B 音声認識結果データ
12C 補正辞書データ
13 記録部
14 取得部
15 補正部
16 登録部
DESCRIPTION OF
Claims (6)
外部装置から、前記音声データを音声認識した結果であるテキストデータを取得する取得部と、
前記識別情報に応じた、文字列の補正辞書を用いて、前記テキストデータに含まれる文字列を補正する補正部と、
を備えることを特徴とする音声認識装置。 A recording unit that records voice data received from a terminal that inputs voice and identification information about the terminal in association with each other;
An acquisition unit that acquires text data that is a result of voice recognition of the voice data from an external device;
A correction unit that corrects a character string included in the text data using a character string correction dictionary according to the identification information;
A speech recognition apparatus comprising:
前記補正部は、前記外部装置から取得されたテキストデータに、前記編集前の文字列及び前記別の文字列が含まれる場合、前記編集前の文字列について補正を行うことを特徴とする、請求項3に記載の音声認識装置。 When the registration unit accepts an editing operation on any of the character strings included in the text data acquired by the acquisition unit, the registration unit extracts a character string different from the character string before the editing from the text data, In association with the character string before editing and the other character string, the edited character string is registered in the correction dictionary corresponding to the identification information corresponding to the text data,
The correction unit corrects the character string before editing when the text data acquired from the external device includes the character string before editing and the other character string. Item 4. The speech recognition device according to Item 3.
音声を入力する端末から受信した音声データと、前記端末に関する識別情報とを対応付けて記録する処理と、
外部装置から、前記音声データを音声認識した結果であるテキストデータを取得する処理と、
前記識別情報に応じた、文字列の補正辞書を用いて、前記テキストデータに含まれる文字列を補正する処理と、
を実行することを特徴とする音声認識方法。 Voice recognition device
A process of associating and recording voice data received from a terminal that inputs voice and identification information about the terminal;
Processing to obtain text data as a result of voice recognition of the voice data from an external device;
A process of correcting a character string included in the text data using a character string correction dictionary according to the identification information;
The voice recognition method characterized by performing.
音声を入力する端末から受信した音声データと、前記端末に関する識別情報とを対応付けて記録する処理と、
外部装置から、前記音声データを音声認識した結果であるテキストデータを取得する処理と、
前記識別情報に応じた、文字列の補正辞書を用いて、前記テキストデータに含まれる文字列を補正する処理と、
を実行させることを特徴とする音声認識プログラム。 In voice recognition device,
A process of associating and recording voice data received from a terminal that inputs voice and identification information about the terminal;
Processing to obtain text data as a result of voice recognition of the voice data from an external device;
A process of correcting a character string included in the text data using a character string correction dictionary according to the identification information;
A speech recognition program characterized in that
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016012466A JP2017134162A (en) | 2016-01-26 | 2016-01-26 | Voice recognition device, voice recognition method, and voice recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016012466A JP2017134162A (en) | 2016-01-26 | 2016-01-26 | Voice recognition device, voice recognition method, and voice recognition program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017134162A true JP2017134162A (en) | 2017-08-03 |
Family
ID=59503720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016012466A Pending JP2017134162A (en) | 2016-01-26 | 2016-01-26 | Voice recognition device, voice recognition method, and voice recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017134162A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081218A (en) * | 2019-12-24 | 2020-04-28 | 北京工业大学 | Voice recognition method and voice control system |
US11620981B2 (en) | 2020-03-04 | 2023-04-04 | Kabushiki Kaisha Toshiba | Speech recognition error correction apparatus |
-
2016
- 2016-01-26 JP JP2016012466A patent/JP2017134162A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081218A (en) * | 2019-12-24 | 2020-04-28 | 北京工业大学 | Voice recognition method and voice control system |
US11620981B2 (en) | 2020-03-04 | 2023-04-04 | Kabushiki Kaisha Toshiba | Speech recognition error correction apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7980465B2 (en) | Hands free contact database information entry at a communication device | |
US8676577B2 (en) | Use of metadata to post process speech recognition output | |
US10810212B2 (en) | Validating provided information in a conversation | |
JP6327848B2 (en) | Communication support apparatus, communication support method and program | |
JP6651973B2 (en) | Interactive processing program, interactive processing method, and information processing apparatus | |
EP2677518A2 (en) | Method for providing voice recognition function and electronic device thereof | |
KR102248843B1 (en) | Method for updating contact information in callee electronic device, and the electronic device | |
JP2018040906A (en) | Dictionary update device and program | |
JP2018045001A (en) | Voice recognition system, information processing apparatus, program, and voice recognition method | |
CN106713111B (en) | Processing method for adding friends, terminal and server | |
KR20100026701A (en) | Sign language translator and method thereof | |
CN111063355A (en) | Conference record generation method and recording terminal | |
WO2007056695A2 (en) | Personal synergic filtering of multimodal inputs | |
CN111523532A (en) | Method for correcting OCR character recognition error and terminal equipment | |
JP2010002973A (en) | Voice data subject estimation device, and call center using the same | |
JP2017134162A (en) | Voice recognition device, voice recognition method, and voice recognition program | |
CN112133295B (en) | Speech recognition method, device and storage medium | |
JP2007201814A (en) | Communication terminal | |
US20130244623A1 (en) | Updating Contact Information In A Mobile Communications Device | |
CN108073293B (en) | Method and device for determining target phrase | |
WO2018061824A1 (en) | Information processing device, information processing method, and program recording medium | |
US9626968B2 (en) | System and method for context sensitive inference in a speech processing system | |
KR102606456B1 (en) | A phising analysis apparatus and method thereof | |
CN110827815A (en) | Voice recognition method, terminal, system and computer storage medium | |
JP7139839B2 (en) | Information processing device, information processing method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20180405 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20180410 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180411 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20180725 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181019 |