JP2024027395A - Dictionary registration program, dictionary registration method, and information processing device - Google Patents
Dictionary registration program, dictionary registration method, and information processing device Download PDFInfo
- Publication number
- JP2024027395A JP2024027395A JP2022130162A JP2022130162A JP2024027395A JP 2024027395 A JP2024027395 A JP 2024027395A JP 2022130162 A JP2022130162 A JP 2022130162A JP 2022130162 A JP2022130162 A JP 2022130162A JP 2024027395 A JP2024027395 A JP 2024027395A
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- modification
- recognition result
- dictionary
- reading information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000010365 information processing Effects 0.000 title claims abstract description 11
- 238000012937 correction Methods 0.000 claims abstract description 76
- 238000012986 modification Methods 0.000 claims abstract description 67
- 230000004048 modification Effects 0.000 claims abstract description 67
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 abstract description 13
- 230000002596 correlated effect Effects 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 40
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【課題】辞書登録作業を効率化する辞書登録プログラム、辞書登録方法及び情報処理装置を提供する。【解決手段】音声データに対して辞書を用いて音声認識を行うことで得られる、文字認識結果文と読み情報とを取得し、文字認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に第1の修正が加えられた形態素の文字認識結果と形態素に含まれる各文字の読み情報とを対応付け、修正が確定したことに応じて、形態素についての、第1の修正後の文字認識結果と読み情報との対応を前記辞書に登録する。【選択図】図4The present invention provides a dictionary registration program, a dictionary registration method, and an information processing device that streamline dictionary registration work. [Solution] A character recognition result sentence and reading information obtained by performing voice recognition on voice data using a dictionary are obtained, and a first modification to a morpheme included in the character recognition result sentence is detected. When the first correction is made based on the reading information for each character, the character recognition result of the morpheme is correlated with the reading information of each character included in the morpheme, and the morpheme is The correspondence between the first corrected character recognition result and reading information for is registered in the dictionary. [Selection diagram] Figure 4
Description
本発明は、辞書登録プログラム、辞書登録方法及び情報処理装置に関する。 The present invention relates to a dictionary registration program, a dictionary registration method, and an information processing device.
近年、会議の議事録の作成や携帯型端末装置を利用したメモ書きなどをより容易に行うための技術として、発言などの音声をテキスト化してテキスト文を自動作成するシステムが数多く提案されている。このようなテキスト文を自動生成するシステムでは、マイクなどの収音装置から入力された音声を、音声認識ツールを用いてテキスト化する方法が採られることが一般的である。 In recent years, a number of systems have been proposed that automatically create text by converting speech, such as speech, into text to make it easier to create meeting minutes and write notes using mobile terminal devices. . Such systems that automatically generate text sentences generally use a method of converting speech input from a sound pickup device such as a microphone into text using a speech recognition tool.
ただし、音声解析ツールの解析精度は十分ではないため、出力されたテキスト文に誤変換が含まれることが多い。そこで、自動生成されたテキスト文を正確な文章として利用するために、手入力での訂正作業が行われている。誤変換の訂正作業には、誤変換の用語の特定及び正しい文字列への修正といった作業が含まれ、解析精度が低く誤変換が多ければ、作業工数が増加して作業者の訂正作業が煩雑となる。 However, since the analysis accuracy of speech analysis tools is not sufficient, the output text often contains erroneous translations. Therefore, in order to use automatically generated text sentences as accurate sentences, manual correction work is performed. Correcting erroneous conversions involves identifying the erroneously converted term and correcting it to the correct character string. If the analysis accuracy is low and there are many erroneous conversions, the number of man-hours will increase and the correction work for the operator will be complicated. becomes.
そこで、解析精度を上げて誤変換を少なくするために、音声解析ツールに辞書登録されていない使用環境特有の用語を新たに辞書登録して、登録した単語の優先度を上げることが行われる。使用環境特有の用語としては、例えば、人名や、会社特有の用語や、新しいIT(Information Technology)用語などが考えられる。このような登録を行なうことで、使用環境に応じた精度の高い音声解析が可能となり、正確な文章を自動生成する確率を向上させることができる。 Therefore, in order to improve analysis accuracy and reduce erroneous conversions, terms unique to the usage environment that are not registered in the dictionary of the speech analysis tool are newly registered in the dictionary, and the priority of the registered words is increased. Examples of terms specific to the usage environment include personal names, company-specific terms, and new IT (Information Technology) terms. By performing such registration, it is possible to perform highly accurate voice analysis according to the usage environment, and it is possible to improve the probability of automatically generating accurate sentences.
ただし、新たな用語の辞書登録を手入力で行う場合、多くの候補となり得る単語の中からどの単語を登録するかを決定することになり、作業者にとって手間のかかる作業となる。そこで、使用環境特有の単語の辞書登録を行う場合に、音声解析ツールにより生成されたテキスト文に対する作業者による用語の修正に基づいて、修正後の用語を自動的に辞書登録する方法が採られる。このような用語の修正には、使用環境特有の用語の修正が多く含まれると考えられるため、使用環境に応じた新たな用語の登録を自動で行えることになる。これにより、新たな用語の辞書登録の業務を効率化させることができる。 However, when registering a new term in a dictionary manually, the operator must decide which word to register from among many possible candidates, which is a time-consuming task for the operator. Therefore, when registering words specific to the usage environment in a dictionary, a method is adopted in which the revised terms are automatically registered in the dictionary based on the operator's correction of the term to the text sentence generated by the speech analysis tool. . Since such modification of terms is likely to include many modifications of terms specific to the usage environment, new terms can be automatically registered according to the usage environment. This makes it possible to streamline the process of registering new terms in the dictionary.
なお、音声認識の技術として、音声認識を行ない音声に含まれ検索に用いるキーワードを抽出して表示し、利用者から修正指示を受けたキーワードの1文字違いの単語を表示して訂正候補として選択可能に提供する技術が提案されている。 In addition, as a voice recognition technology, voice recognition is performed to extract and display the keywords contained in the voice used for search, and the words that are one letter different from the keywords that the user has instructed to correct are displayed and selected as correction candidates. Techniques have been proposed to make this possible.
しかしながら、テキスト文に対する修正の入力に基づいて用語を自動登録する場合、作業者が音声解析ツールに応じたエディタを用いてテキスト文を修正することになる。このように、テキスト文に対する修正は作業者により手作業で行われることから、タイプミスが発生する場合がある。タイプミスが発生した場合、新しい用語の自動登録を行なう装置は、どの単語が登録対象であったのかが判別できなくなるおそれがある。例えば、2文字の用語を修正する際に2文字の修正がなされた後にタイプミスのために再度1文字修正された場合に、音声解析ツールは、修正対象とした元の用語を1文字と判定するおそれがある。そのため、単にテキスト文に対する修正結果を自動登録する方法では、適切な辞書登録が行われず、辞書登録作業を効率化することは困難である。 However, when automatically registering terms based on input of corrections to a text sentence, an operator must correct the text sentence using an editor compatible with the speech analysis tool. As described above, since corrections to text sentences are made manually by an operator, typographical errors may occur. If a typo occurs, a device that automatically registers new terms may not be able to determine which word was to be registered. For example, if a two-letter term is corrected, and then one letter is corrected again due to a typo, the speech analysis tool will determine that the original term to be corrected is one letter. There is a risk of Therefore, with a method that simply automatically registers the correction results for text sentences, appropriate dictionary registration is not performed, and it is difficult to make the dictionary registration work more efficient.
開示の技術は、上記に鑑みてなされたものであって、辞書登録作業を効率化する辞書登録プログラム、辞書登録方法及び情報処理装置を提供することを目的とする。 The disclosed technology has been made in view of the above, and aims to provide a dictionary registration program, a dictionary registration method, and an information processing device that make dictionary registration work more efficient.
本願の開示する辞書登録プログラム、辞書登録方法及び情報処理装置の一つの態様において、コンピュータは、音声データに対して辞書を用いて音声認識を行うことで得られる、文字認識結果文と読み情報とを取得し、前記文字認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に前記第1の修正が加えられた前記形態素の文字認識結果と前記形態素に含まれる各文字の読み情報とを対応付け、修正が確定したことに応じて、前記形態素についての、前記第1の修正後の前記文字認識結果と前記読み情報との対応を前記辞書に登録する処理を実行する。 In one aspect of the dictionary registration program, dictionary registration method, and information processing device disclosed in the present application, a computer performs voice recognition on voice data using a dictionary, and generates character recognition result sentences and reading information. is obtained, and if a first modification to the morpheme included in the character recognition result sentence is detected, the character recognition result of the morpheme to which the first modification has been added based on the reading information for each character and the Correlate the reading information of each character included in the morpheme, and in response to the confirmation of the correction, store the correspondence between the character recognition result after the first correction and the reading information for the morpheme in the dictionary. Execute the process to register.
1つの側面では、本発明は、辞書登録作業を効率化することができる。 In one aspect, the present invention can streamline dictionary registration work.
以下に、本願の開示する辞書登録プログラム、辞書登録方法及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する辞書登録プログラム、辞書登録方法及び情報処理装置が限定されるものではない。 Embodiments of a dictionary registration program, a dictionary registration method, and an information processing apparatus disclosed in the present application will be described in detail below with reference to the drawings. Note that the dictionary registration program, dictionary registration method, and information processing apparatus disclosed in the present application are not limited to the following embodiments.
図1は、音声テキスト化システムの構成図である。本実施例では、図1に示すように、サーバ10と利用者端末装置20A及び20Bなどのクライアントを有するクライアントサーバシステムを用いて構築された音声テキスト化システム1について説明する。ここで、サーバ10は、クラウド上に配置されてもよい。また、音声テキスト化システム1は、サーバ10の機能と利用者端末装置20A及び20Bなどのクライアントの機能とがまとめて組み込まれた1つのコンピュータであってもよい。
FIG. 1 is a block diagram of a speech-to-text conversion system. In this embodiment, as shown in FIG. 1, a speech-to-text conversion system 1 constructed using a client-server system having a
情報処理装置であるサーバ10は、特定のミーティングルームに設置された利用者端末装置20A及び収音装置30Aと接続される。また、サーバ10は、他のミーティングルームに設置された利用者端末装置20B及び収音装置30Bに接続される。
The
収音装置30Aは、例えば、マイクロフォンである。収音装置30Aは、ミーティングルームにおいて会議などで発せられた音声を収集する。そして、収音装置30Aは、収集した音声をサーバ10に送信する。収音装置30Bは、例えば、ICレコーダである。収音装置30Bは、他のミーティングルームにおいて発せられた音声を収集する。そして、収音装置30Bは、収集した音声をサーバ10に送信する。
The sound collection device 30A is, for example, a microphone. The sound collection device 30A collects sounds emitted during a conference or the like in a meeting room. The sound collection device 30A then transmits the collected audio to the
利用者端末装置20Aは、収音装置30Aで収集された音声のテキスト化されたデータをサーバ10から受信してモニタなどに表示する。次に、利用者端末装置20Aは、表示されたテキスト文に対して利用者から加えられた修正の入力を受ける。そして、利用者端末装置20Aは、修正情報をサーバ10へ送信する。
The
同様に、利用者端末装置20Bは、収音装置30Bで収集された音声のテキスト化されたデータをサーバ10から受信してモニタなどに表示する。次に、利用者端末装置20Bは、表示されたテキスト文に対して利用者から加えられた修正の入力を受ける。そして、利用者端末装置20Bは、修正情報をサーバ10へ送信する。利用者端末装置20A及び収音装置30Aと利用者端末装置20B及び収音装置30Bとは同様の機能を有する。そこで、以下では、利用者端末装置20Aと利用者端末装置20Bとを区別しない場合は利用者端末装置20と呼び、収音装置30Aと収音装置30Bとを区別しない場合は収音装置30と呼ぶ。
Similarly, the
サーバ10は、音声データを収音装置30から受信する。次に、サーバ10は、音声解析ツールを用いて音性認識を行なって、音声データをテキスト化してテキスト文を生成する。そして、サーバ10は、テキスト文を利用者端末装置20へ送信する。
The
その後、サーバ10は、送信したテキスト文に対する修正情報を利用者端末装置20から受信する。そして、サーバ10は、修正された用語を辞書登録して、その後の音声データのテキスト化に利用する。以下にサーバ10の処理の詳細について説明する。
Thereafter, the
図2は、実施例に係る音声テキスト化システムのブロック図である。図2に示すように、サーバ10は、通信制御部11、音声解析部12、辞書13、修正管理部14、記憶部15、登録部16及び漢字変換辞書17を有する。
FIG. 2 is a block diagram of the speech-to-text conversion system according to the embodiment. As shown in FIG. 2, the
通信制御部11は、利用者端末装置20との間の通信を制御する。通信制御部11は、音声データを収音装置30から受信する。そして、通信制御部11は、受信した音声データを音声解析部12へ出力する。その後、通信制御部11は、音声データをテキスト化したテキスト文の入力を音声解析部12から受ける。そして、通信制御部11は、テキスト文を利用者端末装置20へ送信する。
The
また、通信制御部11は、テキスト文の編集開始の通知を編集対象のテキスト文のデータとともに利用者端末装置20から受ける。そして、通信制御部11は、編集対象のテキスト文のデータを修正管理部14へ出力する。また、通信制御部11は、用語に分割されたテキスト文の入力を修正管理部14から受ける。そして、通信制御部11は、用語に分割されたテキスト文を利用者端末装置20へ送信する。さらに、通信制御部11は、編集対象のテキスト文に対する修正処理の操作情報を利用者端末装置20から受信する。そして、通信制御部11は、修正処理の操作情報を修正管理部14へ出力する。
Further, the
その後、通信制御部11は、編集終了の通知を利用者端末装置20から受ける。そして、通信制御部11は、編集終了の通知を登録部16へ出力する。
Thereafter, the
辞書13は、音声解析で使用される辞書である。辞書13には、用語毎にその読み方とその読み方が変換された漢字を含む文字とが対応付けて登録される。
The
音声解析部12は、音声データの入力を通信制御部11から受ける。そして、音声解析部12は、音声データの音声認識を実行し、辞書13を用いて音声データをテキスト化したテキスト文を生成するとともに、テキスト文の各文字の読み方を取得する。この生成されたテキスト文が、「認識結果文」の一例である。すなわち、音声解析部12は、音声データに対して辞書13を用いて音声認識を行い、音声データを文字に起こした認識結果文と読み情報とを取得する。その後、音声解析部12は、音声データに対応するテキスト文のデータを通信制御部11へ出力する。
The voice analysis section 12 receives input of voice data from the
漢字変換辞書17は、漢字とその漢字に対応する1つ又は複数の読みとが対応付けられて登録された辞書である。
The
修正管理部14は、テキスト文の編集開始の通知が利用者端末装置20からサーバ10へ送られると、編集対象のテキスト文のデータの入力を通信制御部11から受ける。次に、修正管理部14は、形態素解析などにより取得したテキスト文を品詞に分割する。この品詞が、「形態素」の一例にあたる。これにより、修正管理部14は、修正対象となった用語がテキスト文のどの位置にあるかを把握することが可能となる。
When a notification to start editing a text sentence is sent from the
図3は、修正対象のテキストの一例を示す図である。テキスト101は正しいテキストである。テキスト102は、本来であればテキスト101として認識されるはずの音声が音声解析による誤った認識により作成されたテキストである。テキスト102は、修正管理部14により品詞に分割された状態を示す。テキスト102における各品詞は、スラッシュにより分割されて表されている。テキスト102では、テキスト101に示すように「古屋」が正解である用語が、「古谷」と誤って認識されている。この場合、利用者は、テキスト102の「古谷」を「古屋」に修正することになる。
FIG. 3 is a diagram showing an example of text to be corrected.
修正管理部14は、通信制御部11を介して品詞に分割したテキスト文を利用者端末装置20へ送信する。利用者は、この修正管理部14から送られた品詞に分割されたテキスト文を用いて修正を行なう。ただし、この品詞に分割したテキスト文の送信は行わずに、利用者には、分割を気にせずに分割前のテキスト文を用いて修正を行わせてもよい。
The
修正管理部14は、利用者端末装置20から送信された修正処理の操作情報の入力を通信制御部11から受けて、登録対象となる用語を読みと共に記憶部15に記憶させる。以下に、修正管理部14による登録する用語の決定処理の詳細について説明する。
The
修正管理部14は、修正箇所のカーソル位置の入力を受ける。ここで、利用者は、用語の修正を行う場合、修正対象となる用語を含む分割された品詞の末尾にカーソルを設定する。ただし、修正管理部14が、利用者が指定した適当なカーソル位置の入力を受けて、そのカーソル位置にあたる用語の末尾にカーソル位置を移動して利用者端末装置20に表示させてもよい。また、利用者が分割前のテキスト文を用いて修正を行う場合にも、修正管理部14が、利用者が指定した適当なカーソル位置の入力を受けて、そのカーソル位置にあたる用語の末尾にカーソル位置を移動して利用者端末装置20に表示させてもよい。
The
例えば、図3に示したテキスト102の場合は「古谷」が修正対象となるので、修正管理部14が、「古谷」という用語の末尾にカーソルが設定されたことを認識する。
For example, in the case of the text 102 shown in FIG. 3, "Furuya" is the correction target, so the
次に、修正管理部14は、修正対象の用語の末尾のカーソル位置からの利用者による操作情報の入力を受ける。例えば、矢印キーによるカーソルの移動が行われた場合、修正管理部14は、末尾からの移動位置を特定する。さらに、バックスペースキーやデリートキーが押下された場合、修正管理部14は、文字の消去を認識する。例えば、2回連続でバックスペースキーが押下された場合、修正管理部14は、直前のカーソル位置から前の2文字の消去を認識して、修正対象の単語として特定する。ここでは、用語の中に修正対象の単語及びそれ以外の文字が含まれる場合も想定して説明する。そして、修正管理部14は修正対象の単語のテキスト文における位置及び文字数を修正対象情報として記憶部15に記憶させる。すなわち、特定の用語に対する最初の修正が「第1の修正」の一例にあたり、修正管理部14は、カーソルの移動及び文字の消去の操作情報を基に、第1の修正により修正された文字を特定する。
Next, the
図4は、テキストの修正処理の一例を示す図である。まず、古谷という単語111が消去されたことで、修正管理部14は、図3のテキスト102における「古谷」の位置が修正対象の単語の位置であり且つ修正対象の単語の文字数が2文字であることを認識して、それらの情報を記憶部15に修正対象情報として記憶させる。
FIG. 4 is a diagram illustrating an example of text correction processing. First, since the word "Furuya" 111 has been deleted, the
次に、修正管理部14は、修正対象の単語の読み方の入力を受ける。そして、修正管理部14は、修正対象の単語の読みを含む修正対象の用語の読みを記憶部15に記憶させる。さらに、修正管理部14は、入力された読み方が変換された後の文字の入力を受ける。そして、修正管理部14は、修正対象の単語の変換語の文字を含む修正対象の用語を記憶部15に記憶させる。さらに、修正管理部14は、漢字変換辞書17を参照して、変換後の文字と修正対象の単語の読み方との対応から各文字と読みとの対応を特定する。変換後の文字が、「修正が加えられた形態素の認識結果」の一例にあたる。すなわち、修正管理部14は、文字毎の読み情報を基に修正が加えられた形態素の認識結果と形態素に含まれる各文字の読み情報とを対応付ける。
Next, the
例えば、図4において、修正管理部14は、「ko-ya」という読み方121の入力を受ける。さらに、修正管理部14は、ステップS101で行われた変換により、変換後の文字として「小屋」という単語112の入力を受ける。
For example, in FIG. 4, the
図5は、文字と読み方との対応付け処理を示す図である。修正管理部14は、「小屋」という単語112のそれぞれの読み方131及び132を漢字変換辞書17から取得する。次に、修正管理部14は、記憶部15が保持する修正対象の単語の読み方を参照して、読み方が「ko-ya」であることを確認する。そして、修正管理部14は、「小」の読み方131の中に「ko」があることを確認して、読み方の「ko-ya」のうち「ko」という読み方133を「小」に対応付ける。また、修正管理部14は、「屋」の読み方131の中に「ya」があることを確認して、読み方の「ko-ya」のうち「ya」という読み方134を「屋」に対応付ける。
FIG. 5 is a diagram showing a process of associating characters with readings. The
ここで、例えば入力された修正対象の単語の変換後の文字がタイプミスだった場合、利用者は、再度修正操作を繰り返す。この再度の修正操作が、「第2の修正」の一例にあたる。その場合、修正管理部14は、矢印キーによるカーソルの移動による移動位置の特定を再度行う。そして、バックスペースキーやデリートキーが押下されることで、修正管理部14は、文字の消去を再度認識する。この際、修正管理部14は、記憶部15に格納された修正対象情報に含まれるテキスト文における位置に修正位置が一致を確認して、既に修正対象とした単語への修正であることを認識する。そして、修正管理部14は、既に修正対象とされた単語の特定の文字が消去されたと認識する。さらに、修正管理部14は、修正された文字に対応する読み方から修正対象の単語の読み方の消去された部分を特定して、既に修正対象とされた単語の消去された部分以外の残りの読み方を認識する。
Here, for example, if the converted characters of the input word to be corrected are typographical errors, the user repeats the correction operation again. This second modification operation is an example of a "second modification." In that case, the
例えば、図4において、修正管理部14は、「小屋」という単語112のうち「小」が消去されたことを認識する。この際、修正管理部14は、ステップS102に示すように読み方121のうち「ko」が消去されたことを特定し、残りの読み方が読み方122に示す「ya」となったことを認識する。
For example, in FIG. 4, the
次に、修正管理部14は、タイプミスで消去された文字の再修正の読みの入力を受けて、残りの読み方に再修正の読みを付加して修正対象の単語の読み方を完成させる。その後、修正管理部14は、修正対象の単語の読み方を含む修正対象の用語の読み方を再度完成させて記憶部15に記憶させて更新する。さらに、修正管理部14は、入力された読み方が変換された後の文字の入力を受ける。そして、修正管理部14は、修正対象の単語の変換語の文字を含む修正対象の用語をその用語の読み方に対応させて記憶部15に記憶させて更新する。すなわち、修正管理部14は、認識結果文における位置及び文字数で示される文字に対する第2の修正が検出された場合に、第1の修正及び第2の修正が加えられた形態素の認識結果と形態素に含まれる各文字の読み情報とを対応付ける。
Next, the
例えば、図4において、修正管理部14は、ステップS103に示すように、読み方122の状態で再修正の読みとして「ko」の入力を受けて、「ko-ya」という修正対象の単語の読み方123を再度完成させる。さらに、修正管理部14は、ステップS104で行われた変換による、変換後の文字として「古」という文字の入力を受けて、修正対象の単語113が「古屋」であると認識する。そして、修正管理部14は、「古屋」と「ko-ya」とを対応付けて記憶部15に記憶させる。
For example, in FIG. 4, as shown in step S103, the
修正管理部14は、編集完了の通知を受けるまで以上の修正対象の用語及びその用語の読み方の登録を繰り返す。ここで、利用者は、テキスト文に含まれる複数の用語の修正を行った後に、編集完了の通知を行なってもよい。すなわち、修正管理部14は、編集開始から編集完了までに、修正対象となった複数の用語及びその用語の読み方の登録を行う場合もある。その後、修正管理部14は、通信制御部11を介して編集完了の通知を受けた時に、記憶部15に保存された修正対象情報を削除する。
The
記憶部15は、記憶装置である。記憶部15は、修正対象の単語のテキスト文における位置及び文字数を含む修正対象情報を一時的に保持する。さらに、記憶部15は、修正対象の用語の最終的な修正が加えられた認識結果及び読み方を保持する。
The
登録部16は、テキスト文の編集完了の通知を通信制御部11から受ける。そして、登録部16は、記憶部15が保持する修正対象の用語及びその用語の読み方を取得する。その後。登録部16は、取得した用語及びその用語の読み方を新たな用語として辞書13に登録する。すなわち、登録部16は、修正が確定したことに応じて、形態素についての、修正が加えられた認識結果と読み情報との対応を前記辞書に登録する。
The registration unit 16 receives a notification from the
次に、利用者端末装置20について説明する。利用者端末装置20は、入力装置21、通信制御部22、表示装置23及び入出力制御部24を有する。利用者は、入力装置21及び表示装置23を用いて利用者端末装置20へのデータや命令の入力を行なう。
Next, the
通信制御部22は、サーバ10との間の通信を制御する。通信制御部22は、サーバ10から受信した情報を入出力制御部24へ出力する。また、通信制御部22は、入出力制御部24から入力された情報をサーバ10へ送信する。
The
入出力制御部24は、入力装置21から入力されたデータや命令の処理及び表装置2の表示制御を行なう。例えば、入出力制御部24は、サーバ10から送信された音声データをテキスト化したテキスト文のデータを通信制御部22から取得する。そして、通信制御部11は、取得したテキスト文のデータを表示装置23へ出力して表示させる。
The input/
また、入出力制御部24は、テキスト文の編集開始の通知を編集対象のテキスト文の情報とともに入力装置21から受ける。そして、入出力制御部24は、テキスト文の編集開始の通知を編集対象のテキスト文のデータとともにサーバ10へ通信制御部22を介して送信する。その後、入出力制御部24は、サーバ10から送信された品詞に分割されたテキスト文を通信制御部22から取得する。そして、入出力制御部24は、品詞に分割されたテキスト文を表示装置23へ出力して表示させる。さらに、入出力制御部24は、修正対象のテキスト文に対する修正処理の操作情報の入力を入力装置21から受ける。そして、通信制御部22は、操作結果を表示装置23へ出力して表示に反映させるとともに、修正処理の操作情報をサーバ10へ送信する。他にも、入出力制御部24は、サーバ10から送信された他の情報を表示装置23へ出力して表示させてもよい。その後、入出力制御部24は、テキスト文の編集終了の通知の入力を入力装置21から受ける。そして、入出力制御部24は、テキスト文の編集終了の通知をサーバ10へ通信制御部22を介して送信する。
The input/
表示装置23は、例えば、モニタやディスプレイである。表示装置23は、入出力制御部24から入力されたデータを表示して利用者に画像として提供する。例えば、表示装置23は、音声データをテキスト化したテキスト文を表示する。また、表示装置23は、品詞に分割されたテキスト文を表示する。さらに、表示装置23は、入出力制御部24から入力された操作結果を反映させて表示する画像を更新する。
The
入力装置21は、例えば、キーボードやマウスである。入力装置21は、利用者による操作を受けて、操作情報を入出力制御部24へ出力する。例えば、入力装置21は、編集開始の通知や編集終了の通知を入出力制御部24へ出力する。また、入力装置21は、利用者により行われた修正処理における操作の操作情報を入出力制御部24へ出力する。
The
図6は、実施例に係る辞書登録処理のフローチャートである。次に、図6を参照して、本実施例に係る地所登録処理の流れを説明する。 FIG. 6 is a flowchart of dictionary registration processing according to the embodiment. Next, with reference to FIG. 6, the flow of the land registration process according to this embodiment will be explained.
音声解析部12は、収音装置30から送信された音声データの入力を受ける。そして、音声解析部12は、取得した音声データを用いて音声解析を実行する(ステップS1)。
The audio analysis unit 12 receives input of audio data transmitted from the
そして、音声解析部12は、辞書13を用いて音声データをテキスト化したテキスト文を生成する。その後、音声解析部12は、生成したテキスト文を利用者端末装置20へ送信してテキスト文を表示装置23に表示させる(ステップS2)。
Then, the speech analysis unit 12 uses the
その後、修正管理部14は、利用者端末装置20から送信された編集開始の通知を受ける(ステップS3)。
Thereafter, the
次に、修正管理部14は、修正対象のテキスト文を品詞単位で分割して、品詞に分割したテキスト文を利用者端末装置20へ送信して表示装置23に表示させる。その後、修正箇所に対するカーソルの設定の情報の入力を受けて、修正管理部14は、テキスト文における修正対象の単語の位置及び文字数の情報を含む修正対象情報を記憶部15に記憶させる(ステップS4)。
Next, the
その後、修正管理部14は、修正処理の操作情報の入力を受けて、修正対象の単語の文字の修正を行なう(ステップS5)。
After that, the
そして、修正管理部14は、修正した単語を含む修正対象の用語及びその用語の読み方を記憶部15に登録して更新する(ステップS6)。
Then, the
その後、修正管理部14及び登録部16は、編集終了の通知を受信したか否かにより編集が終了したか否かを判定する(ステップS7)。編集が終了していない場合(ステップS7:否定)、辞書登録処理は、ステップS5へ戻る。
Thereafter, the
これに対して、編集が終了した場合(ステップS7:肯定)、修正管理部14は、修正対象情報を記憶部15から削除する。また、登録部16は、記憶部15が保持する修正対象の用語の修正後の認識結果及びその用語の読み方を取得する。その後。登録部16は、取得した用語及びその用語の読み方を新たな用語として辞書13に登録する(ステップS8)。
On the other hand, if the editing has been completed (step S7: affirmative), the
以上に説明したように、本実施例に係る情報処理装置は、音声データを音声解析して生成したテキスト文を品詞ごとに分割して利用者に提供し、利用者による用語の修正操作を受けて、修正された用語及びその用語の読み方を辞書に新たに登録する。その後、情報処理装置は、新たな用語が登録された辞書を用いて音声解析を実行する。これにより、辞書登録作業を効率化することができる。さらに、利用者が用語の修正を音声テキスト化システムの使用環境に応じて実行することで、使用環境に応じた新たな用語が辞書に自動登録されるため、音声解析の精度を使用環境に合わせて向上させることが可能となる。 As described above, the information processing device according to the present embodiment divides the text sentence generated by analyzing the audio data into parts of speech and provides it to the user, and receives the user's operation to correct the term. Then, the corrected term and its pronunciation are newly registered in the dictionary. After that, the information processing device performs speech analysis using the dictionary in which the new term is registered. Thereby, dictionary registration work can be made more efficient. Furthermore, when users modify terms according to the usage environment of the speech-to-text system, new terms according to the usage environment are automatically registered in the dictionary, so the accuracy of speech analysis can be adjusted to match the usage environment. This makes it possible to improve the performance.
(ハードウェア構成)
図7は、サーバのハードウェア構成図である。図1及び2に示したサーバ10は、例えば、図7に示すように、CPU(Central Processing Unit)91、メモリ92、ハードディスク93及びネットワークインタフェース94を有する。CPU91は、バスを介して、メモリ92、ハードディスク93及びネットワークインタフェース94に接続される。
(Hardware configuration)
FIG. 7 is a hardware configuration diagram of the server. The
ネットワークインタフェース94は、サーバ10と外部装置との通信のためのインタフェースである。ネットワークインタフェース94は、例えば、CPU91と利用者端末装置20との間の通信を中継する。ネットワークインタフェース94は、図2に例示した通信制御部11の機能を実現する。
ハードディスク93は、補助記憶装置である。ハードディスク93は、例えば、図2に例示した、辞書13及び漢字変換辞書17を記憶する。また、ハードディスク93は、例えば、記憶部15の機能を実現する。さらに、ハードディスク93は、図2に例示した、通信制御部11、音声解析部12、修正管理部14及び登録部16の機能を実現するプログラムを含む各種プログラムを格納する。
The
メモリ92は、主記憶装置である。メモリ92は、例えば、DRAM(Dynamic Random Access Memory)を用いることができる。
CPU91は、ハードディスク93から各種プログラムを読み出してメモリ92に展開して実行する。これにより、CPU91は、図2に例示した、通信制御部11、音声解析部12、修正管理部14及び登録部16の機能を実現することができる。
The
1 音声テキスト化システム
10 サーバ
11 通信制御部
12 音声解析部
13 辞書
14 修正管理部
15 記憶部
16 登録部
17 漢字変換辞書
20 利用者端末装置
21 入力装置
22 通信制御部
23 表示装置
24 入出力制御部
1 Speech to text
Claims (6)
前記認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に前記第1の修正が加えられた前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付け、
修正が確定したことに応じて、前記形態素についての、前記第1の修正後の前記認識結果と前記読み情報との対応を前記辞書に登録する
処理をコンピュータに実行させることを特徴とする辞書登録プログラム。 obtaining recognition result sentences and reading information obtained by transcribing the audio data, which are obtained by performing speech recognition on the audio data using a dictionary;
When a first modification to a morpheme included in the recognition result sentence is detected, the recognition result of the morpheme to which the first modification has been added based on reading information for each character and each character included in the morpheme. Correlate with the reading information of
Dictionary registration characterized by causing a computer to execute a process of registering a correspondence between the recognition result after the first correction and the reading information for the morpheme in the dictionary in response to confirmation of the correction. program.
前記認識結果文における位置及び前記文字数で示される文字に対する第2の修正が検出された場合に、前記第1の修正及び前記第2の修正が加えられた前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付け、
修正が確定したことに応じて、前記形態素についての、前記第1の修正及び前記第2の修正後の前記認識結果と前記読み情報との対応を前記辞書に登録する
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の辞書登録プログラム。 dividing the recognition result sentence into the morphemes, retaining the position and number of characters of the morpheme to which the first modification has been applied in the recognition result sentence;
If a second modification to the character indicated by the position and the number of characters in the recognition result sentence is detected, the recognition result of the morpheme to which the first modification and the second modification are added and the morpheme included in the morpheme are determined. and the reading information of each character.
In response to the confirmation of the modification, causing the computer to execute a process of registering the correspondence between the recognition result after the first modification and the second modification and the reading information for the morpheme in the dictionary. The dictionary registration program according to claim 1, characterized in that:
音声データに対して辞書を用いて音声認識を行うことで得られる、前記音声データを文字に起こした認識結果文と読み情報とを取得し、
前記認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に前記第1の修正が加えられた前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付け、
修正が確定したことに応じて、前記形態素についての、前記第1の修正後の前記認識結果と前記読み情報との対応を前記辞書に登録する
処理を実行することを特徴とする辞書登録方法。 The information processing device
obtaining recognition result sentences and reading information obtained by transcribing the audio data, which are obtained by performing speech recognition on the audio data using a dictionary;
When a first modification to a morpheme included in the recognition result sentence is detected, the recognition result of the morpheme to which the first modification has been added based on reading information for each character and each character included in the morpheme. Correlate with the reading information of
A dictionary registration method characterized by executing a process of registering a correspondence between the recognition result after the first modification and the reading information for the morpheme in the dictionary in response to confirmation of the modification.
前記認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に前記第1の修正が加えられた前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付ける修正管理部と、
修正が確定したことに応じて、前記形態素についての、前記第1の修正後の前記認識結果と前記読み情報との対応を前記辞書に登録する登録部と
を備えたことを特徴とする情報処理装置。 a speech analysis unit that obtains a recognition result sentence obtained by performing speech recognition on the speech data using a dictionary and transcribing the speech data and reading information;
When a first modification to a morpheme included in the recognition result sentence is detected, the recognition result of the morpheme to which the first modification has been added based on reading information for each character and each character included in the morpheme. a correction management unit that associates the reading information with the reading information;
and a registration unit that registers a correspondence between the recognition result after the first correction and the reading information for the morpheme in the dictionary in response to confirmation of the correction. Device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022130162A JP2024027395A (en) | 2022-08-17 | 2022-08-17 | Dictionary registration program, dictionary registration method, and information processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022130162A JP2024027395A (en) | 2022-08-17 | 2022-08-17 | Dictionary registration program, dictionary registration method, and information processing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024027395A true JP2024027395A (en) | 2024-03-01 |
Family
ID=90039769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022130162A Pending JP2024027395A (en) | 2022-08-17 | 2022-08-17 | Dictionary registration program, dictionary registration method, and information processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024027395A (en) |
-
2022
- 2022-08-17 JP JP2022130162A patent/JP2024027395A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5257330B2 (en) | Statement recording device, statement recording method, program, and recording medium | |
US6789231B1 (en) | Method and system for providing alternatives for text derived from stochastic input sources | |
US6581033B1 (en) | System and method for correction of speech recognition mode errors | |
EP0607615A1 (en) | Speech recognition interface system suitable for window systems and speech mail systems | |
US7165034B2 (en) | Information processing apparatus and method, and program | |
JP2002116796A (en) | Voice processor and method for voice processing and storage medium | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
JP3476007B2 (en) | Recognition word registration method, speech recognition method, speech recognition device, storage medium storing software product for registration of recognition word, storage medium storing software product for speech recognition | |
CN110415679B (en) | Voice error correction method, device, equipment and storage medium | |
EA004352B1 (en) | Automated transcription system and method using two speech converting instances and computer-assisted correction | |
CN103714048A (en) | Method and system used for revising text | |
JP2001184088A (en) | Recording medium that computer can freely read and background audio recovery system | |
JP2006053906A (en) | Efficient multi-modal method for providing input to computing device | |
TW201822190A (en) | Speech recognition system and method thereof, vocabulary establishing method and computer program product | |
JPH07222248A (en) | System for utilizing speech information for portable information terminal | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2013050742A (en) | Speech recognition device and speech recognition method | |
JP2008052676A (en) | Computer-executable program and method, and processor | |
JP2024027395A (en) | Dictionary registration program, dictionary registration method, and information processing device | |
JP2003162293A (en) | Device and method for voice recognition | |
JP5184071B2 (en) | Transcription text creation support device, transcription text creation support program, and transcription text creation support method | |
JP3958908B2 (en) | Transcription text automatic generation device, speech recognition device, and recording medium | |
JP7483085B1 (en) | Information processing system, information processing device, information processing method, and program | |
TW202011384A (en) | Speech correction system and speech correction method | |
KR20200004176A (en) | Text to speech conversion apparatus for providing a translation function based on application of an optional speech model and operating method thereof |