JP2024027395A - Dictionary registration program, dictionary registration method, and information processing device - Google Patents

Dictionary registration program, dictionary registration method, and information processing device Download PDF

Info

Publication number
JP2024027395A
JP2024027395A JP2022130162A JP2022130162A JP2024027395A JP 2024027395 A JP2024027395 A JP 2024027395A JP 2022130162 A JP2022130162 A JP 2022130162A JP 2022130162 A JP2022130162 A JP 2022130162A JP 2024027395 A JP2024027395 A JP 2024027395A
Authority
JP
Japan
Prior art keywords
morpheme
modification
recognition result
dictionary
reading information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022130162A
Other languages
Japanese (ja)
Inventor
利治 前河
聡 三小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2022130162A priority Critical patent/JP2024027395A/en
Publication of JP2024027395A publication Critical patent/JP2024027395A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】辞書登録作業を効率化する辞書登録プログラム、辞書登録方法及び情報処理装置を提供する。【解決手段】音声データに対して辞書を用いて音声認識を行うことで得られる、文字認識結果文と読み情報とを取得し、文字認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に第1の修正が加えられた形態素の文字認識結果と形態素に含まれる各文字の読み情報とを対応付け、修正が確定したことに応じて、形態素についての、第1の修正後の文字認識結果と読み情報との対応を前記辞書に登録する。【選択図】図4The present invention provides a dictionary registration program, a dictionary registration method, and an information processing device that streamline dictionary registration work. [Solution] A character recognition result sentence and reading information obtained by performing voice recognition on voice data using a dictionary are obtained, and a first modification to a morpheme included in the character recognition result sentence is detected. When the first correction is made based on the reading information for each character, the character recognition result of the morpheme is correlated with the reading information of each character included in the morpheme, and the morpheme is The correspondence between the first corrected character recognition result and reading information for is registered in the dictionary. [Selection diagram] Figure 4

Description

本発明は、辞書登録プログラム、辞書登録方法及び情報処理装置に関する。 The present invention relates to a dictionary registration program, a dictionary registration method, and an information processing device.

近年、会議の議事録の作成や携帯型端末装置を利用したメモ書きなどをより容易に行うための技術として、発言などの音声をテキスト化してテキスト文を自動作成するシステムが数多く提案されている。このようなテキスト文を自動生成するシステムでは、マイクなどの収音装置から入力された音声を、音声認識ツールを用いてテキスト化する方法が採られることが一般的である。 In recent years, a number of systems have been proposed that automatically create text by converting speech, such as speech, into text to make it easier to create meeting minutes and write notes using mobile terminal devices. . Such systems that automatically generate text sentences generally use a method of converting speech input from a sound pickup device such as a microphone into text using a speech recognition tool.

ただし、音声解析ツールの解析精度は十分ではないため、出力されたテキスト文に誤変換が含まれることが多い。そこで、自動生成されたテキスト文を正確な文章として利用するために、手入力での訂正作業が行われている。誤変換の訂正作業には、誤変換の用語の特定及び正しい文字列への修正といった作業が含まれ、解析精度が低く誤変換が多ければ、作業工数が増加して作業者の訂正作業が煩雑となる。 However, since the analysis accuracy of speech analysis tools is not sufficient, the output text often contains erroneous translations. Therefore, in order to use automatically generated text sentences as accurate sentences, manual correction work is performed. Correcting erroneous conversions involves identifying the erroneously converted term and correcting it to the correct character string. If the analysis accuracy is low and there are many erroneous conversions, the number of man-hours will increase and the correction work for the operator will be complicated. becomes.

そこで、解析精度を上げて誤変換を少なくするために、音声解析ツールに辞書登録されていない使用環境特有の用語を新たに辞書登録して、登録した単語の優先度を上げることが行われる。使用環境特有の用語としては、例えば、人名や、会社特有の用語や、新しいIT(Information Technology)用語などが考えられる。このような登録を行なうことで、使用環境に応じた精度の高い音声解析が可能となり、正確な文章を自動生成する確率を向上させることができる。 Therefore, in order to improve analysis accuracy and reduce erroneous conversions, terms unique to the usage environment that are not registered in the dictionary of the speech analysis tool are newly registered in the dictionary, and the priority of the registered words is increased. Examples of terms specific to the usage environment include personal names, company-specific terms, and new IT (Information Technology) terms. By performing such registration, it is possible to perform highly accurate voice analysis according to the usage environment, and it is possible to improve the probability of automatically generating accurate sentences.

ただし、新たな用語の辞書登録を手入力で行う場合、多くの候補となり得る単語の中からどの単語を登録するかを決定することになり、作業者にとって手間のかかる作業となる。そこで、使用環境特有の単語の辞書登録を行う場合に、音声解析ツールにより生成されたテキスト文に対する作業者による用語の修正に基づいて、修正後の用語を自動的に辞書登録する方法が採られる。このような用語の修正には、使用環境特有の用語の修正が多く含まれると考えられるため、使用環境に応じた新たな用語の登録を自動で行えることになる。これにより、新たな用語の辞書登録の業務を効率化させることができる。 However, when registering a new term in a dictionary manually, the operator must decide which word to register from among many possible candidates, which is a time-consuming task for the operator. Therefore, when registering words specific to the usage environment in a dictionary, a method is adopted in which the revised terms are automatically registered in the dictionary based on the operator's correction of the term to the text sentence generated by the speech analysis tool. . Since such modification of terms is likely to include many modifications of terms specific to the usage environment, new terms can be automatically registered according to the usage environment. This makes it possible to streamline the process of registering new terms in the dictionary.

なお、音声認識の技術として、音声認識を行ない音声に含まれ検索に用いるキーワードを抽出して表示し、利用者から修正指示を受けたキーワードの1文字違いの単語を表示して訂正候補として選択可能に提供する技術が提案されている。 In addition, as a voice recognition technology, voice recognition is performed to extract and display the keywords contained in the voice used for search, and the words that are one letter different from the keywords that the user has instructed to correct are displayed and selected as correction candidates. Techniques have been proposed to make this possible.

特開2005-275228号公報JP2005-275228A

しかしながら、テキスト文に対する修正の入力に基づいて用語を自動登録する場合、作業者が音声解析ツールに応じたエディタを用いてテキスト文を修正することになる。このように、テキスト文に対する修正は作業者により手作業で行われることから、タイプミスが発生する場合がある。タイプミスが発生した場合、新しい用語の自動登録を行なう装置は、どの単語が登録対象であったのかが判別できなくなるおそれがある。例えば、2文字の用語を修正する際に2文字の修正がなされた後にタイプミスのために再度1文字修正された場合に、音声解析ツールは、修正対象とした元の用語を1文字と判定するおそれがある。そのため、単にテキスト文に対する修正結果を自動登録する方法では、適切な辞書登録が行われず、辞書登録作業を効率化することは困難である。 However, when automatically registering terms based on input of corrections to a text sentence, an operator must correct the text sentence using an editor compatible with the speech analysis tool. As described above, since corrections to text sentences are made manually by an operator, typographical errors may occur. If a typo occurs, a device that automatically registers new terms may not be able to determine which word was to be registered. For example, if a two-letter term is corrected, and then one letter is corrected again due to a typo, the speech analysis tool will determine that the original term to be corrected is one letter. There is a risk of Therefore, with a method that simply automatically registers the correction results for text sentences, appropriate dictionary registration is not performed, and it is difficult to make the dictionary registration work more efficient.

開示の技術は、上記に鑑みてなされたものであって、辞書登録作業を効率化する辞書登録プログラム、辞書登録方法及び情報処理装置を提供することを目的とする。 The disclosed technology has been made in view of the above, and aims to provide a dictionary registration program, a dictionary registration method, and an information processing device that make dictionary registration work more efficient.

本願の開示する辞書登録プログラム、辞書登録方法及び情報処理装置の一つの態様において、コンピュータは、音声データに対して辞書を用いて音声認識を行うことで得られる、文字認識結果文と読み情報とを取得し、前記文字認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に前記第1の修正が加えられた前記形態素の文字認識結果と前記形態素に含まれる各文字の読み情報とを対応付け、修正が確定したことに応じて、前記形態素についての、前記第1の修正後の前記文字認識結果と前記読み情報との対応を前記辞書に登録する処理を実行する。 In one aspect of the dictionary registration program, dictionary registration method, and information processing device disclosed in the present application, a computer performs voice recognition on voice data using a dictionary, and generates character recognition result sentences and reading information. is obtained, and if a first modification to the morpheme included in the character recognition result sentence is detected, the character recognition result of the morpheme to which the first modification has been added based on the reading information for each character and the Correlate the reading information of each character included in the morpheme, and in response to the confirmation of the correction, store the correspondence between the character recognition result after the first correction and the reading information for the morpheme in the dictionary. Execute the process to register.

1つの側面では、本発明は、辞書登録作業を効率化することができる。 In one aspect, the present invention can streamline dictionary registration work.

図1は、音声テキスト化システムの構成図である。FIG. 1 is a block diagram of a speech-to-text conversion system. 図2は、実施例に係る音声テキスト化システムのブロック図である。FIG. 2 is a block diagram of the speech-to-text conversion system according to the embodiment. 図3は、修正対象のテキストの一例を示す図である。FIG. 3 is a diagram showing an example of text to be corrected. 図4は、テキストの修正処理の一例を示す図である。FIG. 4 is a diagram illustrating an example of text correction processing. 図5は、文字と読み方との対応付け処理を示す図である。FIG. 5 is a diagram showing a process of associating characters with readings. 図6は、実施例に係る辞書登録処理のフローチャートである。FIG. 6 is a flowchart of dictionary registration processing according to the embodiment. 図7は、サーバのハードウェア構成図である。FIG. 7 is a hardware configuration diagram of the server.

以下に、本願の開示する辞書登録プログラム、辞書登録方法及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する辞書登録プログラム、辞書登録方法及び情報処理装置が限定されるものではない。 Embodiments of a dictionary registration program, a dictionary registration method, and an information processing apparatus disclosed in the present application will be described in detail below with reference to the drawings. Note that the dictionary registration program, dictionary registration method, and information processing apparatus disclosed in the present application are not limited to the following embodiments.

図1は、音声テキスト化システムの構成図である。本実施例では、図1に示すように、サーバ10と利用者端末装置20A及び20Bなどのクライアントを有するクライアントサーバシステムを用いて構築された音声テキスト化システム1について説明する。ここで、サーバ10は、クラウド上に配置されてもよい。また、音声テキスト化システム1は、サーバ10の機能と利用者端末装置20A及び20Bなどのクライアントの機能とがまとめて組み込まれた1つのコンピュータであってもよい。 FIG. 1 is a block diagram of a speech-to-text conversion system. In this embodiment, as shown in FIG. 1, a speech-to-text conversion system 1 constructed using a client-server system having a server 10 and clients such as user terminal devices 20A and 20B will be described. Here, the server 10 may be placed on a cloud. Furthermore, the speech-to-text conversion system 1 may be a single computer in which the functions of the server 10 and the functions of clients such as the user terminal devices 20A and 20B are integrated.

情報処理装置であるサーバ10は、特定のミーティングルームに設置された利用者端末装置20A及び収音装置30Aと接続される。また、サーバ10は、他のミーティングルームに設置された利用者端末装置20B及び収音装置30Bに接続される。 The server 10, which is an information processing device, is connected to a user terminal device 20A and a sound collection device 30A installed in a specific meeting room. Further, the server 10 is connected to a user terminal device 20B and a sound collection device 30B installed in another meeting room.

収音装置30Aは、例えば、マイクロフォンである。収音装置30Aは、ミーティングルームにおいて会議などで発せられた音声を収集する。そして、収音装置30Aは、収集した音声をサーバ10に送信する。収音装置30Bは、例えば、ICレコーダである。収音装置30Bは、他のミーティングルームにおいて発せられた音声を収集する。そして、収音装置30Bは、収集した音声をサーバ10に送信する。 The sound collection device 30A is, for example, a microphone. The sound collection device 30A collects sounds emitted during a conference or the like in a meeting room. The sound collection device 30A then transmits the collected audio to the server 10. The sound collection device 30B is, for example, an IC recorder. The sound collection device 30B collects sounds emitted in other meeting rooms. Then, the sound collection device 30B transmits the collected audio to the server 10.

利用者端末装置20Aは、収音装置30Aで収集された音声のテキスト化されたデータをサーバ10から受信してモニタなどに表示する。次に、利用者端末装置20Aは、表示されたテキスト文に対して利用者から加えられた修正の入力を受ける。そして、利用者端末装置20Aは、修正情報をサーバ10へ送信する。 The user terminal device 20A receives text data of the audio collected by the sound collection device 30A from the server 10 and displays it on a monitor or the like. Next, the user terminal device 20A receives input of corrections made by the user to the displayed text sentence. The user terminal device 20A then transmits the correction information to the server 10.

同様に、利用者端末装置20Bは、収音装置30Bで収集された音声のテキスト化されたデータをサーバ10から受信してモニタなどに表示する。次に、利用者端末装置20Bは、表示されたテキスト文に対して利用者から加えられた修正の入力を受ける。そして、利用者端末装置20Bは、修正情報をサーバ10へ送信する。利用者端末装置20A及び収音装置30Aと利用者端末装置20B及び収音装置30Bとは同様の機能を有する。そこで、以下では、利用者端末装置20Aと利用者端末装置20Bとを区別しない場合は利用者端末装置20と呼び、収音装置30Aと収音装置30Bとを区別しない場合は収音装置30と呼ぶ。 Similarly, the user terminal device 20B receives data in the form of text of the audio collected by the sound collection device 30B from the server 10, and displays it on a monitor or the like. Next, the user terminal device 20B receives input of corrections made by the user to the displayed text sentence. The user terminal device 20B then transmits the correction information to the server 10. The user terminal device 20A and sound collection device 30A and the user terminal device 20B and sound collection device 30B have similar functions. Therefore, in the following, when the user terminal device 20A and the user terminal device 20B are not distinguished, they are referred to as the user terminal device 20, and when the sound collecting device 30A and the sound collecting device 30B are not distinguished, they are referred to as the sound collecting device 30. call.

サーバ10は、音声データを収音装置30から受信する。次に、サーバ10は、音声解析ツールを用いて音性認識を行なって、音声データをテキスト化してテキスト文を生成する。そして、サーバ10は、テキスト文を利用者端末装置20へ送信する。 The server 10 receives audio data from the sound collection device 30. Next, the server 10 performs phonetic recognition using a voice analysis tool, converts the voice data into text, and generates a text sentence. The server 10 then transmits the text to the user terminal device 20.

その後、サーバ10は、送信したテキスト文に対する修正情報を利用者端末装置20から受信する。そして、サーバ10は、修正された用語を辞書登録して、その後の音声データのテキスト化に利用する。以下にサーバ10の処理の詳細について説明する。 Thereafter, the server 10 receives modification information for the transmitted text from the user terminal device 20. Then, the server 10 registers the corrected terms in the dictionary and uses them for subsequent conversion of audio data into text. The details of the processing of the server 10 will be explained below.

図2は、実施例に係る音声テキスト化システムのブロック図である。図2に示すように、サーバ10は、通信制御部11、音声解析部12、辞書13、修正管理部14、記憶部15、登録部16及び漢字変換辞書17を有する。 FIG. 2 is a block diagram of the speech-to-text conversion system according to the embodiment. As shown in FIG. 2, the server 10 includes a communication control section 11, a speech analysis section 12, a dictionary 13, a correction management section 14, a storage section 15, a registration section 16, and a kanji conversion dictionary 17.

通信制御部11は、利用者端末装置20との間の通信を制御する。通信制御部11は、音声データを収音装置30から受信する。そして、通信制御部11は、受信した音声データを音声解析部12へ出力する。その後、通信制御部11は、音声データをテキスト化したテキスト文の入力を音声解析部12から受ける。そして、通信制御部11は、テキスト文を利用者端末装置20へ送信する。 The communication control unit 11 controls communication with the user terminal device 20. The communication control unit 11 receives audio data from the sound collection device 30. The communication control unit 11 then outputs the received audio data to the audio analysis unit 12. Thereafter, the communication control section 11 receives from the speech analysis section 12 a text sentence obtained by converting the speech data into text. The communication control unit 11 then transmits the text to the user terminal device 20.

また、通信制御部11は、テキスト文の編集開始の通知を編集対象のテキスト文のデータとともに利用者端末装置20から受ける。そして、通信制御部11は、編集対象のテキスト文のデータを修正管理部14へ出力する。また、通信制御部11は、用語に分割されたテキスト文の入力を修正管理部14から受ける。そして、通信制御部11は、用語に分割されたテキスト文を利用者端末装置20へ送信する。さらに、通信制御部11は、編集対象のテキスト文に対する修正処理の操作情報を利用者端末装置20から受信する。そして、通信制御部11は、修正処理の操作情報を修正管理部14へ出力する。 Further, the communication control unit 11 receives a notification of the start of editing a text sentence from the user terminal device 20 together with the data of the text sentence to be edited. The communication control unit 11 then outputs the data of the text sentence to be edited to the correction management unit 14. Further, the communication control unit 11 receives input of a text sentence divided into terms from the correction management unit 14 . The communication control unit 11 then transmits the text sentence divided into terms to the user terminal device 20. Furthermore, the communication control unit 11 receives operation information for correction processing for the text sentence to be edited from the user terminal device 20 . The communication control unit 11 then outputs operation information for the correction process to the correction management unit 14.

その後、通信制御部11は、編集終了の通知を利用者端末装置20から受ける。そして、通信制御部11は、編集終了の通知を登録部16へ出力する。 Thereafter, the communication control unit 11 receives a notification of completion of editing from the user terminal device 20. Then, the communication control unit 11 outputs a notification of completion of editing to the registration unit 16.

辞書13は、音声解析で使用される辞書である。辞書13には、用語毎にその読み方とその読み方が変換された漢字を含む文字とが対応付けて登録される。 The dictionary 13 is a dictionary used in speech analysis. In the dictionary 13, for each term, its reading and characters including kanji whose readings have been converted are registered in association with each other.

音声解析部12は、音声データの入力を通信制御部11から受ける。そして、音声解析部12は、音声データの音声認識を実行し、辞書13を用いて音声データをテキスト化したテキスト文を生成するとともに、テキスト文の各文字の読み方を取得する。この生成されたテキスト文が、「認識結果文」の一例である。すなわち、音声解析部12は、音声データに対して辞書13を用いて音声認識を行い、音声データを文字に起こした認識結果文と読み情報とを取得する。その後、音声解析部12は、音声データに対応するテキスト文のデータを通信制御部11へ出力する。 The voice analysis section 12 receives input of voice data from the communication control section 11 . Then, the speech analysis unit 12 executes speech recognition of the speech data, generates a text sentence by converting the speech data into text using the dictionary 13, and acquires the reading of each character of the text sentence. This generated text sentence is an example of a "recognition result sentence." That is, the speech analysis unit 12 performs speech recognition on the speech data using the dictionary 13, and obtains a recognition result sentence obtained by transcribing the speech data and reading information. Thereafter, the voice analysis section 12 outputs text sentence data corresponding to the voice data to the communication control section 11.

漢字変換辞書17は、漢字とその漢字に対応する1つ又は複数の読みとが対応付けられて登録された辞書である。 The kanji conversion dictionary 17 is a dictionary in which kanji and one or more readings corresponding to the kanji are registered in association with each other.

修正管理部14は、テキスト文の編集開始の通知が利用者端末装置20からサーバ10へ送られると、編集対象のテキスト文のデータの入力を通信制御部11から受ける。次に、修正管理部14は、形態素解析などにより取得したテキスト文を品詞に分割する。この品詞が、「形態素」の一例にあたる。これにより、修正管理部14は、修正対象となった用語がテキスト文のどの位置にあるかを把握することが可能となる。 When a notification to start editing a text sentence is sent from the user terminal device 20 to the server 10, the modification management unit 14 receives input of data of the text sentence to be edited from the communication control unit 11. Next, the modification management unit 14 divides the text sentence obtained by morphological analysis into parts of speech. This part of speech is an example of a "morpheme." This allows the modification management unit 14 to grasp the position of the term to be modified in the text sentence.

図3は、修正対象のテキストの一例を示す図である。テキスト101は正しいテキストである。テキスト102は、本来であればテキスト101として認識されるはずの音声が音声解析による誤った認識により作成されたテキストである。テキスト102は、修正管理部14により品詞に分割された状態を示す。テキスト102における各品詞は、スラッシュにより分割されて表されている。テキスト102では、テキスト101に示すように「古屋」が正解である用語が、「古谷」と誤って認識されている。この場合、利用者は、テキスト102の「古谷」を「古屋」に修正することになる。 FIG. 3 is a diagram showing an example of text to be corrected. Text 101 is the correct text. The text 102 is a text created by erroneously recognizing a voice that should originally be recognized as the text 101 through voice analysis. The text 102 is divided into parts of speech by the modification management unit 14. Each part of speech in the text 102 is shown divided by slashes. In text 102, a term for which "Furuya" is the correct answer, as shown in text 101, is incorrectly recognized as "Furuya." In this case, the user will modify "Furuya" in the text 102 to "Furuya."

修正管理部14は、通信制御部11を介して品詞に分割したテキスト文を利用者端末装置20へ送信する。利用者は、この修正管理部14から送られた品詞に分割されたテキスト文を用いて修正を行なう。ただし、この品詞に分割したテキスト文の送信は行わずに、利用者には、分割を気にせずに分割前のテキスト文を用いて修正を行わせてもよい。 The modification management unit 14 transmits the text divided into parts of speech to the user terminal device 20 via the communication control unit 11 . The user makes corrections using the text sent from the correction management section 14, which is divided into parts of speech. However, the text sentence divided into parts of speech may not be transmitted, and the user may be allowed to make corrections using the text sentence before division without worrying about the division.

修正管理部14は、利用者端末装置20から送信された修正処理の操作情報の入力を通信制御部11から受けて、登録対象となる用語を読みと共に記憶部15に記憶させる。以下に、修正管理部14による登録する用語の決定処理の詳細について説明する。 The modification management section 14 receives from the communication control section 11 the input of the operation information for the modification process transmitted from the user terminal device 20, and stores the term to be registered in the storage section 15 along with its reading. The details of the process of determining terms to be registered by the modification management unit 14 will be described below.

修正管理部14は、修正箇所のカーソル位置の入力を受ける。ここで、利用者は、用語の修正を行う場合、修正対象となる用語を含む分割された品詞の末尾にカーソルを設定する。ただし、修正管理部14が、利用者が指定した適当なカーソル位置の入力を受けて、そのカーソル位置にあたる用語の末尾にカーソル位置を移動して利用者端末装置20に表示させてもよい。また、利用者が分割前のテキスト文を用いて修正を行う場合にも、修正管理部14が、利用者が指定した適当なカーソル位置の入力を受けて、そのカーソル位置にあたる用語の末尾にカーソル位置を移動して利用者端末装置20に表示させてもよい。 The modification management unit 14 receives input of the cursor position of the modification location. Here, when correcting a term, the user sets the cursor at the end of the divided part of speech that includes the term to be corrected. However, the correction management unit 14 may receive an input of an appropriate cursor position specified by the user, move the cursor position to the end of the term corresponding to the cursor position, and display it on the user terminal device 20. Furthermore, when the user makes a correction using the text sentence before division, the correction management unit 14 receives input of an appropriate cursor position specified by the user and moves the cursor to the end of the term corresponding to the cursor position. It may be displayed on the user terminal device 20 by moving the position.

例えば、図3に示したテキスト102の場合は「古谷」が修正対象となるので、修正管理部14が、「古谷」という用語の末尾にカーソルが設定されたことを認識する。 For example, in the case of the text 102 shown in FIG. 3, "Furuya" is the correction target, so the modification management unit 14 recognizes that the cursor has been set at the end of the term "Furuya."

次に、修正管理部14は、修正対象の用語の末尾のカーソル位置からの利用者による操作情報の入力を受ける。例えば、矢印キーによるカーソルの移動が行われた場合、修正管理部14は、末尾からの移動位置を特定する。さらに、バックスペースキーやデリートキーが押下された場合、修正管理部14は、文字の消去を認識する。例えば、2回連続でバックスペースキーが押下された場合、修正管理部14は、直前のカーソル位置から前の2文字の消去を認識して、修正対象の単語として特定する。ここでは、用語の中に修正対象の単語及びそれ以外の文字が含まれる場合も想定して説明する。そして、修正管理部14は修正対象の単語のテキスト文における位置及び文字数を修正対象情報として記憶部15に記憶させる。すなわち、特定の用語に対する最初の修正が「第1の修正」の一例にあたり、修正管理部14は、カーソルの移動及び文字の消去の操作情報を基に、第1の修正により修正された文字を特定する。 Next, the modification management unit 14 receives input of operation information from the user from the cursor position at the end of the term to be modified. For example, when the cursor is moved using the arrow keys, the modification management unit 14 identifies the movement position from the end. Further, when the backspace key or delete key is pressed, the modification management unit 14 recognizes that characters have been deleted. For example, if the backspace key is pressed twice in a row, the correction management unit 14 recognizes that the previous two characters from the immediately previous cursor position have been erased, and identifies them as the word to be corrected. Here, the explanation will be made on the assumption that the word to be corrected and other characters are included in the term. Then, the correction management unit 14 causes the storage unit 15 to store the position and number of characters of the word to be corrected in the text sentence as correction target information. That is, the first modification to a specific term is an example of a "first modification," and the modification management unit 14 edits the characters modified by the first modification based on the operation information for moving the cursor and deleting characters. Identify.

図4は、テキストの修正処理の一例を示す図である。まず、古谷という単語111が消去されたことで、修正管理部14は、図3のテキスト102における「古谷」の位置が修正対象の単語の位置であり且つ修正対象の単語の文字数が2文字であることを認識して、それらの情報を記憶部15に修正対象情報として記憶させる。 FIG. 4 is a diagram illustrating an example of text correction processing. First, since the word "Furuya" 111 has been deleted, the modification management unit 14 determines that the position of "Furuya" in the text 102 of FIG. 3 is the position of the word to be modified, and the number of characters in the word to be modified is 2. Recognizing that there is such information, the information is stored in the storage unit 15 as correction target information.

次に、修正管理部14は、修正対象の単語の読み方の入力を受ける。そして、修正管理部14は、修正対象の単語の読みを含む修正対象の用語の読みを記憶部15に記憶させる。さらに、修正管理部14は、入力された読み方が変換された後の文字の入力を受ける。そして、修正管理部14は、修正対象の単語の変換語の文字を含む修正対象の用語を記憶部15に記憶させる。さらに、修正管理部14は、漢字変換辞書17を参照して、変換後の文字と修正対象の単語の読み方との対応から各文字と読みとの対応を特定する。変換後の文字が、「修正が加えられた形態素の認識結果」の一例にあたる。すなわち、修正管理部14は、文字毎の読み情報を基に修正が加えられた形態素の認識結果と形態素に含まれる各文字の読み情報とを対応付ける。 Next, the correction management unit 14 receives an input of the reading of the word to be corrected. Then, the correction management unit 14 causes the storage unit 15 to store the pronunciation of the term to be corrected, including the pronunciation of the word to be corrected. Furthermore, the correction management unit 14 receives input of characters whose reading has been converted. Then, the correction management unit 14 causes the storage unit 15 to store the term to be corrected, which includes the characters of the converted word of the word to be corrected. Further, the correction management unit 14 refers to the kanji conversion dictionary 17 and identifies the correspondence between each character and the reading based on the correspondence between the converted character and the reading of the word to be corrected. The converted characters are an example of "recognition results of modified morphemes." That is, the modification management unit 14 associates the recognition result of the morpheme that has been modified based on the reading information of each character with the reading information of each character included in the morpheme.

例えば、図4において、修正管理部14は、「ko-ya」という読み方121の入力を受ける。さらに、修正管理部14は、ステップS101で行われた変換により、変換後の文字として「小屋」という単語112の入力を受ける。 For example, in FIG. 4, the modification management unit 14 receives an input of the pronunciation 121 of "ko-ya". Further, the modification management unit 14 receives the word "hut" 112 as the converted characters through the conversion performed in step S101.

図5は、文字と読み方との対応付け処理を示す図である。修正管理部14は、「小屋」という単語112のそれぞれの読み方131及び132を漢字変換辞書17から取得する。次に、修正管理部14は、記憶部15が保持する修正対象の単語の読み方を参照して、読み方が「ko-ya」であることを確認する。そして、修正管理部14は、「小」の読み方131の中に「ko」があることを確認して、読み方の「ko-ya」のうち「ko」という読み方133を「小」に対応付ける。また、修正管理部14は、「屋」の読み方131の中に「ya」があることを確認して、読み方の「ko-ya」のうち「ya」という読み方134を「屋」に対応付ける。 FIG. 5 is a diagram showing a process of associating characters with readings. The correction management unit 14 acquires the respective pronunciations 131 and 132 of the word "koya" 112 from the kanji conversion dictionary 17. Next, the correction management unit 14 refers to the reading of the word to be corrected held in the storage unit 15 and confirms that the reading is "ko-ya." Then, the correction management unit 14 confirms that "ko" is included in the pronunciations 131 of "ko", and associates the pronunciation 133 "ko" of the pronunciations "ko-ya" with "ko". In addition, the modification management unit 14 confirms that "ya" is included in the pronunciation 131 of "ya" and associates the pronunciation 134 of "ya" among the pronunciations "ko-ya" with "ya".

ここで、例えば入力された修正対象の単語の変換後の文字がタイプミスだった場合、利用者は、再度修正操作を繰り返す。この再度の修正操作が、「第2の修正」の一例にあたる。その場合、修正管理部14は、矢印キーによるカーソルの移動による移動位置の特定を再度行う。そして、バックスペースキーやデリートキーが押下されることで、修正管理部14は、文字の消去を再度認識する。この際、修正管理部14は、記憶部15に格納された修正対象情報に含まれるテキスト文における位置に修正位置が一致を確認して、既に修正対象とした単語への修正であることを認識する。そして、修正管理部14は、既に修正対象とされた単語の特定の文字が消去されたと認識する。さらに、修正管理部14は、修正された文字に対応する読み方から修正対象の単語の読み方の消去された部分を特定して、既に修正対象とされた単語の消去された部分以外の残りの読み方を認識する。 Here, for example, if the converted characters of the input word to be corrected are typographical errors, the user repeats the correction operation again. This second modification operation is an example of a "second modification." In that case, the modification management unit 14 specifies the movement position again by moving the cursor using the arrow keys. Then, when the backspace key or the delete key is pressed, the correction management unit 14 recognizes the deletion of the character again. At this time, the correction management unit 14 confirms that the correction position matches the position in the text sentence included in the correction target information stored in the storage unit 15, and recognizes that the correction is to a word that has already been targeted for correction. do. Then, the modification management unit 14 recognizes that a specific character of the word that has already been targeted for modification has been deleted. Furthermore, the correction management unit 14 identifies the erased portion of the reading of the word to be corrected from the reading corresponding to the corrected character, and selects the remaining readings of the word that has already been targeted for correction other than the erased portion. Recognize.

例えば、図4において、修正管理部14は、「小屋」という単語112のうち「小」が消去されたことを認識する。この際、修正管理部14は、ステップS102に示すように読み方121のうち「ko」が消去されたことを特定し、残りの読み方が読み方122に示す「ya」となったことを認識する。 For example, in FIG. 4, the modification management unit 14 recognizes that "small" in the word "hut" 112 has been deleted. At this time, the correction management unit 14 identifies that "ko" has been deleted from the reading 121 as shown in step S102, and recognizes that the remaining reading has become "ya" shown in the reading 122.

次に、修正管理部14は、タイプミスで消去された文字の再修正の読みの入力を受けて、残りの読み方に再修正の読みを付加して修正対象の単語の読み方を完成させる。その後、修正管理部14は、修正対象の単語の読み方を含む修正対象の用語の読み方を再度完成させて記憶部15に記憶させて更新する。さらに、修正管理部14は、入力された読み方が変換された後の文字の入力を受ける。そして、修正管理部14は、修正対象の単語の変換語の文字を含む修正対象の用語をその用語の読み方に対応させて記憶部15に記憶させて更新する。すなわち、修正管理部14は、認識結果文における位置及び文字数で示される文字に対する第2の修正が検出された場合に、第1の修正及び第2の修正が加えられた形態素の認識結果と形態素に含まれる各文字の読み情報とを対応付ける。 Next, the correction management unit 14 receives the input of the re-corrected pronunciation of the character erased due to a typographical error, adds the re-corrected pronunciation to the remaining pronunciations, and completes the pronunciation of the word to be corrected. Thereafter, the modification management unit 14 completes the reading of the term to be modified, including the reading of the word to be modified, and stores it in the storage unit 15 for updating. Furthermore, the correction management unit 14 receives input of characters whose reading has been converted. Then, the correction management unit 14 stores and updates the term to be corrected, which includes the characters of the converted word of the word to be corrected, in the storage unit 15 in correspondence with the pronunciation of the term. That is, when the second modification to the character indicated by the position and number of characters in the recognition result sentence is detected, the modification management unit 14 selects the recognition result of the morpheme and the morpheme to which the first modification and the second modification have been added. and the reading information of each character included in the text.

例えば、図4において、修正管理部14は、ステップS103に示すように、読み方122の状態で再修正の読みとして「ko」の入力を受けて、「ko-ya」という修正対象の単語の読み方123を再度完成させる。さらに、修正管理部14は、ステップS104で行われた変換による、変換後の文字として「古」という文字の入力を受けて、修正対象の単語113が「古屋」であると認識する。そして、修正管理部14は、「古屋」と「ko-ya」とを対応付けて記憶部15に記憶させる。 For example, in FIG. 4, as shown in step S103, the correction management unit 14 receives an input of "ko" as the reading to be re-corrected in the reading 122 state, and then inputs the reading of the word to be corrected, "ko-ya". Complete 123 again. Further, the correction management unit 14 receives the input of the character "Ko" as the converted character by the conversion performed in step S104, and recognizes that the word 113 to be corrected is "Furuya". Then, the correction management unit 14 associates “Furuya” and “ko-ya” and stores them in the storage unit 15.

修正管理部14は、編集完了の通知を受けるまで以上の修正対象の用語及びその用語の読み方の登録を繰り返す。ここで、利用者は、テキスト文に含まれる複数の用語の修正を行った後に、編集完了の通知を行なってもよい。すなわち、修正管理部14は、編集開始から編集完了までに、修正対象となった複数の用語及びその用語の読み方の登録を行う場合もある。その後、修正管理部14は、通信制御部11を介して編集完了の通知を受けた時に、記憶部15に保存された修正対象情報を削除する。 The modification management unit 14 repeats the above-described registration of the term to be corrected and the reading of the term until it receives a notification of completion of editing. Here, the user may notify the completion of editing after correcting a plurality of terms included in the text sentence. That is, the correction management unit 14 may register a plurality of terms to be corrected and how to read the terms from the start of editing to the completion of editing. Thereafter, when the modification management section 14 receives a notification of completion of editing via the communication control section 11, it deletes the modification target information stored in the storage section 15.

記憶部15は、記憶装置である。記憶部15は、修正対象の単語のテキスト文における位置及び文字数を含む修正対象情報を一時的に保持する。さらに、記憶部15は、修正対象の用語の最終的な修正が加えられた認識結果及び読み方を保持する。 The storage unit 15 is a storage device. The storage unit 15 temporarily stores correction target information including the position and number of characters of a word to be corrected in a text sentence. Furthermore, the storage unit 15 holds the final revised recognition results and readings of the term to be revised.

登録部16は、テキスト文の編集完了の通知を通信制御部11から受ける。そして、登録部16は、記憶部15が保持する修正対象の用語及びその用語の読み方を取得する。その後。登録部16は、取得した用語及びその用語の読み方を新たな用語として辞書13に登録する。すなわち、登録部16は、修正が確定したことに応じて、形態素についての、修正が加えられた認識結果と読み情報との対応を前記辞書に登録する。 The registration unit 16 receives a notification from the communication control unit 11 that the editing of the text sentence has been completed. Then, the registration unit 16 acquires the term to be corrected and the pronunciation of the term held in the storage unit 15. after that. The registration unit 16 registers the acquired term and its pronunciation in the dictionary 13 as a new term. That is, in response to the confirmation of the correction, the registration unit 16 registers the correspondence between the corrected recognition result and the reading information for the morpheme in the dictionary.

次に、利用者端末装置20について説明する。利用者端末装置20は、入力装置21、通信制御部22、表示装置23及び入出力制御部24を有する。利用者は、入力装置21及び表示装置23を用いて利用者端末装置20へのデータや命令の入力を行なう。 Next, the user terminal device 20 will be explained. The user terminal device 20 includes an input device 21, a communication control section 22, a display device 23, and an input/output control section 24. A user inputs data and commands to the user terminal device 20 using the input device 21 and display device 23 .

通信制御部22は、サーバ10との間の通信を制御する。通信制御部22は、サーバ10から受信した情報を入出力制御部24へ出力する。また、通信制御部22は、入出力制御部24から入力された情報をサーバ10へ送信する。 The communication control unit 22 controls communication with the server 10. The communication control unit 22 outputs information received from the server 10 to the input/output control unit 24. Furthermore, the communication control unit 22 transmits information input from the input/output control unit 24 to the server 10.

入出力制御部24は、入力装置21から入力されたデータや命令の処理及び表装置2の表示制御を行なう。例えば、入出力制御部24は、サーバ10から送信された音声データをテキスト化したテキスト文のデータを通信制御部22から取得する。そして、通信制御部11は、取得したテキスト文のデータを表示装置23へ出力して表示させる。 The input/output control unit 24 processes data and commands input from the input device 21 and controls the display of the table device 2. For example, the input/output control unit 24 obtains, from the communication control unit 22, text data obtained by converting audio data transmitted from the server 10 into text. The communication control unit 11 then outputs the acquired text sentence data to the display device 23 for display.

また、入出力制御部24は、テキスト文の編集開始の通知を編集対象のテキスト文の情報とともに入力装置21から受ける。そして、入出力制御部24は、テキスト文の編集開始の通知を編集対象のテキスト文のデータとともにサーバ10へ通信制御部22を介して送信する。その後、入出力制御部24は、サーバ10から送信された品詞に分割されたテキスト文を通信制御部22から取得する。そして、入出力制御部24は、品詞に分割されたテキスト文を表示装置23へ出力して表示させる。さらに、入出力制御部24は、修正対象のテキスト文に対する修正処理の操作情報の入力を入力装置21から受ける。そして、通信制御部22は、操作結果を表示装置23へ出力して表示に反映させるとともに、修正処理の操作情報をサーバ10へ送信する。他にも、入出力制御部24は、サーバ10から送信された他の情報を表示装置23へ出力して表示させてもよい。その後、入出力制御部24は、テキスト文の編集終了の通知の入力を入力装置21から受ける。そして、入出力制御部24は、テキスト文の編集終了の通知をサーバ10へ通信制御部22を介して送信する。 The input/output control unit 24 also receives a notification of the start of editing a text sentence from the input device 21 together with information on the text sentence to be edited. Then, the input/output control section 24 transmits a notification to start editing the text sentence to the server 10 via the communication control section 22 together with the data of the text sentence to be edited. Thereafter, the input/output control section 24 obtains the text sentence divided into parts of speech transmitted from the server 10 from the communication control section 22 . Then, the input/output control unit 24 outputs the text sentence divided into parts of speech to the display device 23 for display. Further, the input/output control unit 24 receives input of operation information for correction processing for the text sentence to be corrected from the input device 21 . Then, the communication control unit 22 outputs the operation result to the display device 23 to be reflected in the display, and transmits operation information for the correction process to the server 10. In addition, the input/output control unit 24 may output other information transmitted from the server 10 to the display device 23 for display. Thereafter, the input/output control unit 24 receives an input from the input device 21 of notification of completion of editing the text sentence. Then, the input/output control unit 24 transmits a notification of completion of editing the text sentence to the server 10 via the communication control unit 22.

表示装置23は、例えば、モニタやディスプレイである。表示装置23は、入出力制御部24から入力されたデータを表示して利用者に画像として提供する。例えば、表示装置23は、音声データをテキスト化したテキスト文を表示する。また、表示装置23は、品詞に分割されたテキスト文を表示する。さらに、表示装置23は、入出力制御部24から入力された操作結果を反映させて表示する画像を更新する。 The display device 23 is, for example, a monitor or a display. The display device 23 displays the data input from the input/output control section 24 and provides the data to the user as an image. For example, the display device 23 displays a text sentence obtained by converting audio data into text. Further, the display device 23 displays a text sentence divided into parts of speech. Further, the display device 23 updates the displayed image to reflect the operation result input from the input/output control unit 24.

入力装置21は、例えば、キーボードやマウスである。入力装置21は、利用者による操作を受けて、操作情報を入出力制御部24へ出力する。例えば、入力装置21は、編集開始の通知や編集終了の通知を入出力制御部24へ出力する。また、入力装置21は、利用者により行われた修正処理における操作の操作情報を入出力制御部24へ出力する。 The input device 21 is, for example, a keyboard or a mouse. The input device 21 receives a user's operation and outputs operation information to the input/output control unit 24 . For example, the input device 21 outputs a notification of the start of editing and a notification of the end of editing to the input/output control unit 24. In addition, the input device 21 outputs operation information of the operation performed by the user in the correction process to the input/output control unit 24 .

図6は、実施例に係る辞書登録処理のフローチャートである。次に、図6を参照して、本実施例に係る地所登録処理の流れを説明する。 FIG. 6 is a flowchart of dictionary registration processing according to the embodiment. Next, with reference to FIG. 6, the flow of the land registration process according to this embodiment will be explained.

音声解析部12は、収音装置30から送信された音声データの入力を受ける。そして、音声解析部12は、取得した音声データを用いて音声解析を実行する(ステップS1)。 The audio analysis unit 12 receives input of audio data transmitted from the sound collection device 30. Then, the voice analysis unit 12 executes voice analysis using the acquired voice data (step S1).

そして、音声解析部12は、辞書13を用いて音声データをテキスト化したテキスト文を生成する。その後、音声解析部12は、生成したテキスト文を利用者端末装置20へ送信してテキスト文を表示装置23に表示させる(ステップS2)。 Then, the speech analysis unit 12 uses the dictionary 13 to generate a text sentence by converting the speech data into text. Thereafter, the speech analysis unit 12 transmits the generated text sentence to the user terminal device 20 and displays the text sentence on the display device 23 (step S2).

その後、修正管理部14は、利用者端末装置20から送信された編集開始の通知を受ける(ステップS3)。 Thereafter, the modification management unit 14 receives a notification of the start of editing transmitted from the user terminal device 20 (step S3).

次に、修正管理部14は、修正対象のテキスト文を品詞単位で分割して、品詞に分割したテキスト文を利用者端末装置20へ送信して表示装置23に表示させる。その後、修正箇所に対するカーソルの設定の情報の入力を受けて、修正管理部14は、テキスト文における修正対象の単語の位置及び文字数の情報を含む修正対象情報を記憶部15に記憶させる(ステップS4)。 Next, the correction management unit 14 divides the text sentence to be corrected into parts of speech, transmits the divided text sentences into parts of speech to the user terminal device 20, and displays them on the display device 23. Thereafter, upon receiving the input of the information on the cursor settings for the correction location, the correction management unit 14 causes the storage unit 15 to store correction target information including information on the position and number of characters of the word to be corrected in the text sentence (step S4 ).

その後、修正管理部14は、修正処理の操作情報の入力を受けて、修正対象の単語の文字の修正を行なう(ステップS5)。 After that, the modification management unit 14 receives the input of the operation information for the modification process, and modifies the characters of the word to be modified (step S5).

そして、修正管理部14は、修正した単語を含む修正対象の用語及びその用語の読み方を記憶部15に登録して更新する(ステップS6)。 Then, the correction management unit 14 registers and updates the correction target term including the corrected word and the pronunciation of the term in the storage unit 15 (step S6).

その後、修正管理部14及び登録部16は、編集終了の通知を受信したか否かにより編集が終了したか否かを判定する(ステップS7)。編集が終了していない場合(ステップS7:否定)、辞書登録処理は、ステップS5へ戻る。 Thereafter, the modification management unit 14 and the registration unit 16 determine whether the editing has been completed based on whether or not a notification of the completion of editing has been received (step S7). If the editing has not been completed (step S7: negative), the dictionary registration process returns to step S5.

これに対して、編集が終了した場合(ステップS7:肯定)、修正管理部14は、修正対象情報を記憶部15から削除する。また、登録部16は、記憶部15が保持する修正対象の用語の修正後の認識結果及びその用語の読み方を取得する。その後。登録部16は、取得した用語及びその用語の読み方を新たな用語として辞書13に登録する(ステップS8)。 On the other hand, if the editing has been completed (step S7: affirmative), the modification management section 14 deletes the modification target information from the storage section 15. Further, the registration unit 16 acquires the corrected recognition result of the term to be corrected and the reading of the term held in the storage unit 15. after that. The registration unit 16 registers the acquired term and its pronunciation as a new term in the dictionary 13 (step S8).

以上に説明したように、本実施例に係る情報処理装置は、音声データを音声解析して生成したテキスト文を品詞ごとに分割して利用者に提供し、利用者による用語の修正操作を受けて、修正された用語及びその用語の読み方を辞書に新たに登録する。その後、情報処理装置は、新たな用語が登録された辞書を用いて音声解析を実行する。これにより、辞書登録作業を効率化することができる。さらに、利用者が用語の修正を音声テキスト化システムの使用環境に応じて実行することで、使用環境に応じた新たな用語が辞書に自動登録されるため、音声解析の精度を使用環境に合わせて向上させることが可能となる。 As described above, the information processing device according to the present embodiment divides the text sentence generated by analyzing the audio data into parts of speech and provides it to the user, and receives the user's operation to correct the term. Then, the corrected term and its pronunciation are newly registered in the dictionary. After that, the information processing device performs speech analysis using the dictionary in which the new term is registered. Thereby, dictionary registration work can be made more efficient. Furthermore, when users modify terms according to the usage environment of the speech-to-text system, new terms according to the usage environment are automatically registered in the dictionary, so the accuracy of speech analysis can be adjusted to match the usage environment. This makes it possible to improve the performance.

(ハードウェア構成)
図7は、サーバのハードウェア構成図である。図1及び2に示したサーバ10は、例えば、図7に示すように、CPU(Central Processing Unit)91、メモリ92、ハードディスク93及びネットワークインタフェース94を有する。CPU91は、バスを介して、メモリ92、ハードディスク93及びネットワークインタフェース94に接続される。
(Hardware configuration)
FIG. 7 is a hardware configuration diagram of the server. The server 10 shown in FIGS. 1 and 2 includes, for example, a CPU (Central Processing Unit) 91, a memory 92, a hard disk 93, and a network interface 94, as shown in FIG. The CPU 91 is connected to a memory 92, a hard disk 93, and a network interface 94 via a bus.

ネットワークインタフェース94は、サーバ10と外部装置との通信のためのインタフェースである。ネットワークインタフェース94は、例えば、CPU91と利用者端末装置20との間の通信を中継する。ネットワークインタフェース94は、図2に例示した通信制御部11の機能を実現する。 Network interface 94 is an interface for communication between server 10 and external devices. The network interface 94 relays communication between the CPU 91 and the user terminal device 20, for example. The network interface 94 realizes the functions of the communication control unit 11 illustrated in FIG.

ハードディスク93は、補助記憶装置である。ハードディスク93は、例えば、図2に例示した、辞書13及び漢字変換辞書17を記憶する。また、ハードディスク93は、例えば、記憶部15の機能を実現する。さらに、ハードディスク93は、図2に例示した、通信制御部11、音声解析部12、修正管理部14及び登録部16の機能を実現するプログラムを含む各種プログラムを格納する。 The hard disk 93 is an auxiliary storage device. The hard disk 93 stores, for example, the dictionary 13 and the kanji conversion dictionary 17 illustrated in FIG. Further, the hard disk 93 realizes the function of the storage unit 15, for example. Furthermore, the hard disk 93 stores various programs including programs that implement the functions of the communication control section 11, voice analysis section 12, modification management section 14, and registration section 16 illustrated in FIG.

メモリ92は、主記憶装置である。メモリ92は、例えば、DRAM(Dynamic Random Access Memory)を用いることができる。 Memory 92 is a main storage device. For example, a DRAM (Dynamic Random Access Memory) can be used as the memory 92.

CPU91は、ハードディスク93から各種プログラムを読み出してメモリ92に展開して実行する。これにより、CPU91は、図2に例示した、通信制御部11、音声解析部12、修正管理部14及び登録部16の機能を実現することができる。 The CPU 91 reads various programs from the hard disk 93, expands them into the memory 92, and executes them. Thereby, the CPU 91 can realize the functions of the communication control section 11, voice analysis section 12, correction management section 14, and registration section 16 illustrated in FIG.

1 音声テキスト化システム
10 サーバ
11 通信制御部
12 音声解析部
13 辞書
14 修正管理部
15 記憶部
16 登録部
17 漢字変換辞書
20 利用者端末装置
21 入力装置
22 通信制御部
23 表示装置
24 入出力制御部
1 Speech to text system 10 Server 11 Communication control unit 12 Speech analysis unit 13 Dictionary 14 Correction management unit 15 Storage unit 16 Registration unit 17 Kanji conversion dictionary 20 User terminal device 21 Input device 22 Communication control unit 23 Display device 24 Input/output control Department

Claims (6)

音声データに対して辞書を用いて音声認識を行うことで得られる、前記音声データを文字に起こした認識結果文と読み情報とを取得し、
前記認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に前記第1の修正が加えられた前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付け、
修正が確定したことに応じて、前記形態素についての、前記第1の修正後の前記認識結果と前記読み情報との対応を前記辞書に登録する
処理をコンピュータに実行させることを特徴とする辞書登録プログラム。
obtaining recognition result sentences and reading information obtained by transcribing the audio data, which are obtained by performing speech recognition on the audio data using a dictionary;
When a first modification to a morpheme included in the recognition result sentence is detected, the recognition result of the morpheme to which the first modification has been added based on reading information for each character and each character included in the morpheme. Correlate with the reading information of
Dictionary registration characterized by causing a computer to execute a process of registering a correspondence between the recognition result after the first correction and the reading information for the morpheme in the dictionary in response to confirmation of the correction. program.
カーソルの移動及び文字の消去の操作情報を基に、前記第1の修正により修正された文字を特定し、特定した文字毎の読み情報を基に前記第1の修正が加えられた前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付けする処理を前記コンピュータに実行させることを特徴とする請求項1に記載の辞書登録プログラム。 Based on the operation information for moving the cursor and erasing characters, the characters modified by the first modification are identified, and the morphemes modified by the first modification are identified based on the reading information for each identified character. 2. The dictionary registration program according to claim 1, causing the computer to execute a process of associating a recognition result with reading information of each character included in the morpheme. 前記認識結果文を前記形態素に分割し、前記第1の修正が加えられた前記形態素の前記認識結果文における位置及び文字数を保持し、
前記認識結果文における位置及び前記文字数で示される文字に対する第2の修正が検出された場合に、前記第1の修正及び前記第2の修正が加えられた前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付け、
修正が確定したことに応じて、前記形態素についての、前記第1の修正及び前記第2の修正後の前記認識結果と前記読み情報との対応を前記辞書に登録する
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の辞書登録プログラム。
dividing the recognition result sentence into the morphemes, retaining the position and number of characters of the morpheme to which the first modification has been applied in the recognition result sentence;
If a second modification to the character indicated by the position and the number of characters in the recognition result sentence is detected, the recognition result of the morpheme to which the first modification and the second modification are added and the morpheme included in the morpheme are determined. and the reading information of each character.
In response to the confirmation of the modification, causing the computer to execute a process of registering the correspondence between the recognition result after the first modification and the second modification and the reading information for the morpheme in the dictionary. The dictionary registration program according to claim 1, characterized in that:
漢字変換辞書を用いて、前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付ける処理を前記コンピュータに実行させることを特徴とする請求項1に記載の辞書登録プログラム。 2. The dictionary registration program according to claim 1, wherein the computer executes a process of associating the recognition result of the morpheme with reading information of each character included in the morpheme using a kanji conversion dictionary. 情報処理装置が、
音声データに対して辞書を用いて音声認識を行うことで得られる、前記音声データを文字に起こした認識結果文と読み情報とを取得し、
前記認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に前記第1の修正が加えられた前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付け、
修正が確定したことに応じて、前記形態素についての、前記第1の修正後の前記認識結果と前記読み情報との対応を前記辞書に登録する
処理を実行することを特徴とする辞書登録方法。
The information processing device
obtaining recognition result sentences and reading information obtained by transcribing the audio data, which are obtained by performing speech recognition on the audio data using a dictionary;
When a first modification to a morpheme included in the recognition result sentence is detected, the recognition result of the morpheme to which the first modification has been added based on reading information for each character and each character included in the morpheme. Correlate with the reading information of
A dictionary registration method characterized by executing a process of registering a correspondence between the recognition result after the first modification and the reading information for the morpheme in the dictionary in response to confirmation of the modification.
音声データに対して辞書を用いて音声認識を行うことで得られる、前記音声データを文字に起こした認識結果文と読み情報とを取得する音声解析部と、
前記認識結果文に含まれる形態素に対する第1の修正が検出された場合に、文字毎の読み情報を基に前記第1の修正が加えられた前記形態素の認識結果と前記形態素に含まれる各文字の読み情報とを対応付ける修正管理部と、
修正が確定したことに応じて、前記形態素についての、前記第1の修正後の前記認識結果と前記読み情報との対応を前記辞書に登録する登録部と
を備えたことを特徴とする情報処理装置。
a speech analysis unit that obtains a recognition result sentence obtained by performing speech recognition on the speech data using a dictionary and transcribing the speech data and reading information;
When a first modification to a morpheme included in the recognition result sentence is detected, the recognition result of the morpheme to which the first modification has been added based on reading information for each character and each character included in the morpheme. a correction management unit that associates the reading information with the reading information;
and a registration unit that registers a correspondence between the recognition result after the first correction and the reading information for the morpheme in the dictionary in response to confirmation of the correction. Device.
JP2022130162A 2022-08-17 2022-08-17 Dictionary registration program, dictionary registration method, and information processing device Pending JP2024027395A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022130162A JP2024027395A (en) 2022-08-17 2022-08-17 Dictionary registration program, dictionary registration method, and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022130162A JP2024027395A (en) 2022-08-17 2022-08-17 Dictionary registration program, dictionary registration method, and information processing device

Publications (1)

Publication Number Publication Date
JP2024027395A true JP2024027395A (en) 2024-03-01

Family

ID=90039769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022130162A Pending JP2024027395A (en) 2022-08-17 2022-08-17 Dictionary registration program, dictionary registration method, and information processing device

Country Status (1)

Country Link
JP (1) JP2024027395A (en)

Similar Documents

Publication Publication Date Title
JP5257330B2 (en) Statement recording device, statement recording method, program, and recording medium
US6789231B1 (en) Method and system for providing alternatives for text derived from stochastic input sources
US6581033B1 (en) System and method for correction of speech recognition mode errors
EP0607615A1 (en) Speech recognition interface system suitable for window systems and speech mail systems
US7165034B2 (en) Information processing apparatus and method, and program
JP2002116796A (en) Voice processor and method for voice processing and storage medium
US7742924B2 (en) System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context
JP3476007B2 (en) Recognition word registration method, speech recognition method, speech recognition device, storage medium storing software product for registration of recognition word, storage medium storing software product for speech recognition
CN110415679B (en) Voice error correction method, device, equipment and storage medium
EA004352B1 (en) Automated transcription system and method using two speech converting instances and computer-assisted correction
CN103714048A (en) Method and system used for revising text
JP2001184088A (en) Recording medium that computer can freely read and background audio recovery system
JP2006053906A (en) Efficient multi-modal method for providing input to computing device
TW201822190A (en) Speech recognition system and method thereof, vocabulary establishing method and computer program product
JPH07222248A (en) System for utilizing speech information for portable information terminal
JP5160594B2 (en) Speech recognition apparatus and speech recognition method
JP2013050742A (en) Speech recognition device and speech recognition method
JP2008052676A (en) Computer-executable program and method, and processor
JP2024027395A (en) Dictionary registration program, dictionary registration method, and information processing device
JP2003162293A (en) Device and method for voice recognition
JP5184071B2 (en) Transcription text creation support device, transcription text creation support program, and transcription text creation support method
JP3958908B2 (en) Transcription text automatic generation device, speech recognition device, and recording medium
JP7483085B1 (en) Information processing system, information processing device, information processing method, and program
TW202011384A (en) Speech correction system and speech correction method
KR20200004176A (en) Text to speech conversion apparatus for providing a translation function based on application of an optional speech model and operating method thereof