JP2022028436A - Information processing apparatus and information processing program - Google Patents
Information processing apparatus and information processing program Download PDFInfo
- Publication number
- JP2022028436A JP2022028436A JP2020131827A JP2020131827A JP2022028436A JP 2022028436 A JP2022028436 A JP 2022028436A JP 2020131827 A JP2020131827 A JP 2020131827A JP 2020131827 A JP2020131827 A JP 2020131827A JP 2022028436 A JP2022028436 A JP 2022028436A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unclear
- processing unit
- conversion
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 107
- 238000006243 chemical reaction Methods 0.000 claims abstract description 103
- 230000004044 response Effects 0.000 claims description 57
- 230000000295 complement effect Effects 0.000 claims description 18
- 239000013589 supplement Substances 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 25
- 230000008569 process Effects 0.000 abstract description 22
- 238000010586 diagram Methods 0.000 abstract description 13
- 238000004458 analytical method Methods 0.000 description 27
- 238000004891 communication Methods 0.000 description 17
- 230000000877 morphologic effect Effects 0.000 description 7
- 230000009118 appropriate response Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000699 topical effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】音声認識の際に発生しうる不明瞭語を適切に処理する。【解決手段】本開示の一例としての情報処理装置は、音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する取得処理部と、認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語が特定された場合、不明瞭語から、不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する変換処理部と、を備える。【選択図】図1An object of the present invention is to appropriately process ambiguous words that may occur during speech recognition. [Solution] An information processing device as an example of the present disclosure uses morphemes included in text data obtained by speech recognition as data indicating the content of speech data, together with a recognition rate indicating the certainty of speech recognition for each morpheme. If an ambiguous word whose pronunciation is similar to other words is identified from the acquisition processing unit and the morphemes whose recognition rate is below the threshold, a word with the same meaning as the ambiguous word is selected from the ambiguous words. and a conversion processing unit that acquires a conversion word set in advance as a conversion word. [Selection diagram] Figure 1
Description
本開示は、情報処理装置および情報処理プログラムに関する。 The present disclosure relates to information processing devices and information processing programs.
従来から、ユーザの発話内容を示す音声データに音声認識による解析を実行し、当該解析の結果に応じて、ユーザの発話内容に対する応答を出力する技術について検討されている。このような従来の技術として、話題の一貫性または単語のつながりを考慮して適切な応答の出力を図る構成が知られている。 Conventionally, a technique has been studied in which an analysis by voice recognition is performed on voice data indicating a user's utterance content, and a response to the user's utterance content is output according to the result of the analysis. As such a conventional technique, a configuration is known in which an appropriate response is output in consideration of the consistency of topics or the connection of words.
しかしながら、上述した音声認識による解析の結果として得られる形態素には、発音が他の語と類似している不明瞭語が含まれる場合がある。この点に関して、上述した従来の技術では、話題の一貫性または単語のつながりに問題が無ければ、たとえ不明瞭語が誤認識されている場合であっても、誤認識された不明瞭語に基づいて応答が出力される。このため、不明瞭語の誤認識を抑制するように、不明瞭語を適切に処理することが望まれている。 However, the morpheme obtained as a result of the above-mentioned speech recognition analysis may include an unclear word whose pronunciation is similar to that of other words. In this regard, the prior art described above is based on misrecognized obscure words, even if the obscure words are misrecognized, provided that there is no problem with topical consistency or word connections. The response is output. Therefore, it is desired to appropriately process the unclear word so as to suppress the misrecognition of the unclear word.
そこで、本開示の課題の一つは、音声認識の際に発生しうる不明瞭語を適切に処理することが可能な情報処理装置および情報処理プログラムを提供することである。 Therefore, one of the problems of the present disclosure is to provide an information processing apparatus and an information processing program capable of appropriately processing unclear words that may occur during speech recognition.
本開示の一例としての情報処理装置は、音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する取得処理部と、認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語が特定された場合、不明瞭語から、不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する変換処理部と、を備える。 The information processing apparatus as an example of the present disclosure acquires morphological elements contained in text data obtained by voice recognition as data indicating the contents of voice data together with a recognition rate indicating the certainty of voice recognition for each morphological element. When an unclear word whose pronunciation is similar to another word is identified from the part and the morphological element whose recognition rate is below the threshold, the unclear word is preset as a word having the same meaning as the unclear word. It is provided with a conversion processing unit for acquiring the conversion word.
本開示の一例としての情報処理装置によれば、音声認識の際に発生しうる不明瞭語を適切に処理することができる。 According to the information processing apparatus as an example of the present disclosure, it is possible to appropriately process unclear words that may occur during speech recognition.
以下、本開示の実施形態を図面に基づいて説明する。以下に記載する実施形態の構成、ならびに当該構成によってもたらされる作用および効果は、あくまで一例であって、以下の記載内容に限られるものではない。 Hereinafter, embodiments of the present disclosure will be described with reference to the drawings. The configuration of the embodiment described below, and the actions and effects brought about by the configuration are merely examples, and are not limited to the contents described below.
図1は、実施形態にかかる情報処理システムの構成を示した例示的かつ模式的なブロック図である。 FIG. 1 is an exemplary and schematic block diagram showing a configuration of an information processing system according to an embodiment.
ここで、実施形態にかかる情報処理システムは、ユーザの発話内容を示す音声データに音声認識による解析を実行し、当該解析の結果に応じて、ユーザの発話内容に対する応答を出力する技術に適用される。このような技術を実施するための構成として、従来、話題の一貫性または単語のつながりを考慮して、適切な応答の出力を図る構成が知られている。 Here, the information system according to the embodiment is applied to a technique of executing an analysis by voice recognition on voice data indicating a user's utterance content and outputting a response to the user's utterance content according to the result of the analysis. To. As a configuration for implementing such a technique, a configuration for outputting an appropriate response in consideration of topic consistency or word connection has been conventionally known.
しかしながら、上述した音声認識による解析の結果として得られる形態素には、発音が他の語と類似している不明瞭語が含まれる場合がある。この点に関して、上述した従来の技術では、話題の一貫性または単語のつながりに問題が無ければ、たとえ不明瞭語が誤認識されている場合であっても、誤認識された不明瞭語に基づいて応答が出力される。このため、不明瞭語の誤認識を抑制するように、不明瞭語をより適切に処理することが望まれている。 However, the morpheme obtained as a result of the above-mentioned speech recognition analysis may include an unclear word whose pronunciation is similar to that of other words. In this regard, the prior art described above is based on misrecognized obscure words, even if the obscure words are misrecognized, provided that there is no problem with topical consistency or word connections. The response is output. Therefore, it is desired to process the unclear word more appropriately so as to suppress the misrecognition of the unclear word.
そこで、実施形態にかかる情報処理システムは、以下に説明するような構成および処理により、音声認識の際に発生しうる不明瞭語をより適切に処理することを実現する。 Therefore, the information processing system according to the embodiment can more appropriately process unclear words that may occur during voice recognition by the configuration and processing as described below.
図1に示されるように、実施形態にかかる情報処理システムは、端末装置100と、サーバ装置200と、を備えている。端末装置100およびサーバ装置200は、ネットワーク(不図示)を介して互いに通信可能に接続されている。サーバ装置200は、本開示の「情報処理装置」の一例である。
As shown in FIG. 1, the information processing system according to the embodiment includes a
端末装置100は、通信処理部110と、入力処理部120と、出力処理部130と、を備えている。
The
通信処理部110は、端末装置100と他の装置(図1に示される例ではサーバ装置200)との間で実行されうる通信を司る。
The communication processing unit 110 controls communication that can be executed between the
入力処理部120は、端末装置100のユーザの発話に応じた音声データの入力を受け付け、当該音声データのサーバ装置200への送信を通信処理部110に実行させる。
The input processing unit 120 accepts the input of voice data according to the utterance of the user of the
出力処理部130は、サーバ装置200が音声データに応じて作成した応答が通信処理部110により受信された場合に、当該応答を端末装置100のユーザに音声または画像で通知する。
When the communication processing unit 110 receives the response created by the
また、サーバ装置200は、通信処理部210と、解析処理部220と、解析データベース(DB)221と、変換処理部230と、変換データベース231と、ユーザ音声データベース232と、応答処理部240と、検索処理部250と、を備えている。解析処理部220は、本開示の「取得処理部」の一例である。
Further, the
通信処理部210は、サーバ装置200と他の装置(図1に示される例では端末装置100)との間で実行されうる通信を司る。
The communication processing unit 210 controls communication that can be executed between the
解析処理部220は、通信処理部210が端末装置100から受信した音声データに音声認識による解析を実行する。より具体的に、解析処理部220は、音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する。実施形態は、解析の手法として、従来から知られている形態素解析の手法を利用しうる。このような解析に必要な各種のデータは、解析データベース221に予め設定されている。
The
変換処理部230は、上記の認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語を特定する。そして、変換処理部230は、不明瞭語が特定された場合、特定された不明瞭語から、当該不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する。さらに、変換処理部230は、変換語が取得された場合、変換語を補足する語として予め設定された補足語をさらに取得する。
The
不明瞭語の特定と、当該不明瞭語に応じた変換語および補足語の取得とは、次の図2に示されるような変換データベース231に基づいて実行される。
The identification of the obscure word and the acquisition of the converted word and the complement word corresponding to the unclear word are executed based on the
図2は、実施形態にかかる変換データベース231の例を例示的かつ模式的な図である。
FIG. 2 is an exemplary and schematic diagram of an example of a
図2に示されるように、変換データベース231には、「No」と「カテゴリ」と「不明瞭語」と「変換語」と「補足語」と「誤変換語」と「音声データ」との対応関係が予め設定されている。なお、図2に示される例において、「No」と「カテゴリ」と「不明瞭語」と「変換語」と「補足語」と「誤変換語」と「音声データ」との各欄に設定された情報は、あくまで一例である。したがって、実施形態では、変換データベース231の各欄に図2に示される例とは異なる情報が設定されていてもよい。
As shown in FIG. 2, in the
「不明瞭語」の欄には、サーバ装置200を運用する事業者などにより予め決められた不明瞭語が設定される。図2に示される例では、「不明瞭語」の欄に、4つの不明瞭語が設定されている。
In the "unclear word" column, a predetermined unclear word is set by a business operator or the like that operates the
また、「変換語」の欄には、「不明瞭語」の欄に設定された不明瞭語と同一の意味を持つ語としてサーバ装置200を運用する事業者などにより予め決められた変換語が設定される。図2に示される例では、「不明瞭語」の欄に、上記の4つの不明瞭語に対応した4つの変換語が設定されている。図2に示されるように、実施形態では、不明瞭語と変換語とが同一の語であってもよい。
Further, in the "converted word" column, a converted word predetermined by a business operator operating the
なお、図2に示される例では、不明瞭語と変換語とが1対1で設定されているが、実施形態では、1つの不明瞭語に対して複数の変換語が設定されていてもよい。この場合、変換処理部230は、複数の変換語を、たとえば予め決められた優先順位に従って1つずつ使用しうる。
In the example shown in FIG. 2, the obscure word and the converted word are set on a one-to-one basis, but in the embodiment, even if a plurality of converted words are set for one unclear word. good. In this case, the
また、「補足語」の欄には、「変換語」を補足する語としてサーバ装置200を運用する事業者などにより予め決められた補足語が設定される。図2に示されるように、実施形態では、特定の語を示すデータのみならず、補足語の有無を表すだけのデータも、補足語として設定されうる。
Further, in the "supplementary word" column, a supplementary word predetermined by a business operator operating the
また、「音声データ」の欄には、不明瞭語の典型的な発音を示す所定の音声データが設定される。実施形態において、変換処理部230は、サーバ装置200が端末装置100から取得する音声データのうち認識率が閾値を下回る形態素に対応した不明瞭区間と、「音声データ」の欄に設定された所定のデータと、の類似度に応じて、不明瞭区間に対応した不明瞭語を特定しうる。
Further, in the "voice data" column, predetermined voice data indicating a typical pronunciation of an unclear word is set. In the embodiment, the
また、「誤変換語」の欄には、「不明瞭語」の欄に設定された不明瞭語と発音が類似する語としての誤変換語が設定される。誤変換語は、たとえば、「変換語」の欄に設定された変換語に基づいて出力される応答が誤っているとユーザに判定された場合に、次の応答の作成時に変換語に代えて使用されうる。 Further, in the "misconverted word" column, an erroneously converted word as a word whose pronunciation is similar to that of the unclear word set in the "unclear word" column is set. The erroneous conversion word is replaced with the conversion word when the next response is created, for example, when the user determines that the response output based on the conversion word set in the "conversion word" field is incorrect. Can be used.
なお、「No」の欄には、便宜上割り当てられた管理番号が設定される。また、「カテゴリ」の欄には、「不明瞭語」の欄に設定された不明瞭語の品詞が設定される。 A control number assigned for convenience is set in the "No" column. Further, in the "category" column, the part of speech of the unclear word set in the "unclear word" column is set.
このように、実施形態において、変換処理部230は、解析処理部220により解析された音声データが不明瞭区間を含む場合、変換データベース231を参照することで、不明瞭区間に対応した不明瞭語の特定と、当該不明瞭語に対応した変換語および補足語を特定する。すなわち、変換処理部230は、解析処理部220により解析された音声データが不明瞭区間を含む場合、変換データベース231を参照し、不明瞭区間と所定の音声データとの類似度に基づいて、不明瞭区間に対応した不明瞭語を特定し、不明瞭語に対応した変換語および補足語を取得する。
As described above, in the embodiment, when the voice data analyzed by the
ここで、実施形態において、変換処理部230は、変換データベース231を用いた上記の処理の負担を軽減するために、変換データベース231に先立って、次の図3に示されるようなユーザ音声データベース232を参照しうる。
Here, in the embodiment, in order to reduce the burden of the above processing using the
図3は、実施形態にかかるユーザ音声データベース232の例を示した例示的かつ模式的な図である。
FIG. 3 is an exemplary and schematic diagram showing an example of the
図3に示されるように、ユーザ音声データベース232には、「ユーザID」と「音声データ」と「不明瞭語」との対応関係が予め設定されている。なお、図3に示される例において、「ユーザID」と「音声データ」と「不明瞭語」との各欄に設定された情報は、あくまで一例である。したがって、実施形態では、ユーザ音声データベース232の各欄に図3に示される例とは異なる情報が設定されていてもよい。
As shown in FIG. 3, the correspondence relationship between the "user ID", the "voice data", and the "unclear word" is preset in the
「ユーザID」の欄には、端末装置100のユーザを識別するための情報としてのユーザIDが設定される。ユーザIDは、ユーザごとに適宜割り当てられる。
In the "user ID" field, a user ID as information for identifying the user of the
「不明瞭語」の欄には、「ユーザID」の欄に設定されたユーザIDで識別されるユーザが過去に発話した不明瞭語が設定される。図3に示される例では、「不明瞭語」の欄に、4つの不明瞭語が設定されている。 In the "unclear word" column, an unclear word spoken in the past by the user identified by the user ID set in the "user ID" column is set. In the example shown in FIG. 3, four unclear words are set in the "unclear word" column.
また、「音声データ」の欄には、不明瞭語のユーザごとの発音を示すユーザ音声データが設定される。ユーザ音声データは、変換データベース231に予め設定された所定の音声データと異なり、ユーザの発話履歴に基づいている。
Further, in the "voice data" column, user voice data indicating the pronunciation of the unclear word for each user is set. The user voice data is different from predetermined voice data preset in the
実施形態において、変換処理部230は、解析処理部220により解析された音声データが不明瞭区間を含む場合、変換データベース231を用いた不明瞭語の特定に先立って、上記のようなユーザ音声データベース232を用いた不明瞭語の特定を試みる。すなわち、変換処理部230は、解析処理部220により解析された音声データが不明瞭区間を含む場合、不明瞭区間とユーザ音声データとの類似度に基づいて不明瞭語を特定するように、変換データベース231に先立ってユーザ音声データベース232を参照する。そして、変換処理部230は、ユーザ音声データベース232から不明瞭語が特定された場合、ユーザ音声データベース232から特定された不明瞭語に基づいて、変換データベース231から変換語および補足語を取得する。
In the embodiment, when the voice data analyzed by the
図1に戻り、応答処理部240は、変換処理部230により変換語が取得された場合、当該変換語を不明瞭語の代替として用いて、サーバ装置200が端末装置100から受信した音声データに対する応答を出力する。また、応答処理部240は、変換処理部230により変換語とともに補足語も取得された場合、変換語に加えて補足語をさらに用いて、応答を出力する。
Returning to FIG. 1, when the
なお、検索処理部250は、応答処理部240が応答を出力するために必要な情報を検索する。検索処理部250による検索の結果に基づいて応答処理部240により出力された応答は、通信処理部210によって端末装置100に送信される。
The search processing unit 250 searches for information necessary for the
以上の構成に基づき、実施形態にかかるサーバ装置200は、端末装置100からの音声データの受信に応じて、次の図4に示されるような一連の処理を実行する。
Based on the above configuration, the
図4は、実施形態にかかるサーバ装置200が端末装置100からの音声データの受信に応じて実行する一連の処理を示した例示的なフローチャートである。
FIG. 4 is an exemplary flowchart showing a series of processes executed by the
図4に示されるように、実施形態では、まず、S401において、解析処理部220は、通信処理部210が端末装置100から受信した音声データを取得する。
As shown in FIG. 4, in the embodiment, first, in S401, the
そして、S402において、解析処理部220は、S401で取得された音声データに対して解析データベース221を用いた解析を実行し、音声データのうち認識率が閾値を下回る形態素を示す不明瞭区間が存在するか否かを判定する。なお、不明瞭区間は、複数存在しうる。
Then, in S402, the
S402において、不明瞭区間が存在しないと判定された場合、そのまま処理が終了する。しかしながら、S402において、不明瞭区間が存在すると判定された場合、S403に処理が進む。 If it is determined in S402 that there is no unclear section, the process ends as it is. However, if it is determined in S402 that an unclear section exists, the process proceeds to S403.
そして、S403において、変換処理部230は、不明瞭区間に基づいてユーザ音声データベース232を参照する。
Then, in S403, the
そして、S404において、変換処理部230は、不明瞭区間と類似した、すなわち不明瞭区間との類似度が一定以上のユーザ音声データがユーザ音声データベース232内に存在するか否かを判定する。
Then, in S404, the
S404において、不明瞭区間と類似したユーザ音声データがユーザ音声データベース232内に存在すると判定された場合、S405に処理が進む。そして、S405において、変換処理部230は、不明瞭区間と類似したユーザ音声データに対応した不明瞭語をユーザ音声データベース232から特定する。
If it is determined in S404 that the user voice data similar to the unclear section exists in the
一方、S404において、不明瞭区間と類似したユーザ音声データがユーザ音声データベース232内に存在しないと判定された場合、S406に処理が進む。そして、S406において、変換処理部230は、ユーザ音声データをユーザ音声データベース232に新たに追加するように、ユーザ音声データベース232を更新する。
On the other hand, if it is determined in S404 that the user voice data similar to the unclear section does not exist in the
S405またはS406の処理が完了すると、S407に処理が進む。そして、S407において、変換処理部230は、S405またはS406の処理の結果に基づいて、変換データベース231を参照する。
When the processing of S405 or S406 is completed, the processing proceeds to S407. Then, in S407, the
そして、S408において、変換処理部230は、該当する不明瞭語が変換データベース231内に存在するか否かを判定する。より具体的に、変換処理部230は、S405を経たS408においては、S405で特定された不明瞭語と一致する不明瞭語が変換データベース231内に存在するか否かを判定し、S406を経たS408においては、不明瞭区間と類似した音声データに対応した不明瞭語が変換データベース231内に存在するか否かを判定する。
Then, in S408, the
S408において、該当する不明瞭語が存在しないと判定された場合、S401で取得された音声データの意味を適切に解釈できないので、端末装置100に適切な応答を返すことができない。したがって、この場合、応答処理部240は、ユーザの再発話を促す通知を端末装置100への応答として出力する。応答は、通信処理部210を介して端末装置100に送信され、端末装置100の出力処理部130を介してユーザに出力される。そして、処理が終了する。
If it is determined in S408 that the corresponding unclear word does not exist, the meaning of the voice data acquired in S401 cannot be properly interpreted, and therefore an appropriate response cannot be returned to the
一方、S408において、該当する不明瞭語が存在すると判定された場合、S401で取得された音声データの意味を適切に解釈できるので、端末装置100に適切な応答を返すことができると見込まれる。したがって、この場合、そのまま処理が終了することなく、S410に処理が進む。
On the other hand, when it is determined in S408 that the corresponding unclear word exists, the meaning of the voice data acquired in S401 can be appropriately interpreted, and it is expected that an appropriate response can be returned to the
そして、S410において、変換処理部230は、該当する不明瞭語に対応した変換語および補足語を変換データベース231から取得する。
Then, in S410, the
そして、S411において、変換処理部230は、全ての不明瞭区間に対応した全ての不明瞭語が特定済みであるか否かを判定する。
Then, in S411, the
S411において、一部の不明瞭語が特定されていない判定された場合、次の不明瞭語の特定のため、S403に処理が戻る。しかしながら、S411において、全ての不明瞭語が特定済みであると判定された場合、S412に処理が進む。 If it is determined in S411 that some unclear words have not been specified, the process returns to S403 to specify the next unclear word. However, if it is determined in S411 that all the unclear words have been specified, the process proceeds to S412.
そして、S412において、応答処理部240は、S410で取得された変換語および補足語を用いて、S401で取得された音声データに対する応答を出力する。より具体的に、応答処理部240は、変換語を不明瞭語の代替語として用いるとともに、変換語を補足語の付け足しとして用いることで、応答を出力する。このとき、応答処理部240は、必要に応じて検索処理部250に検索を実行させ、当該検索の結果を利用して応答を出力しうる。なお、応答処理部240により出力された応答は、通信処理部210を介して端末装置100に送信され、端末装置100の出力処理部130を介してユーザに出力される。
Then, in S412, the
そして、S413において、応答処理部240は、S412で出力された応答に対する端末装置100のユーザからの訂正の要求が通信処理部210を介して受信されたか否かを判定する。
Then, in S413, the
S413において、訂正の要求が受信されたと判定された場合、S414に処理が進む。そして、S414において、応答処理部240は、たとえば変換データベース231の「誤認識語」の欄などを参照し、ユーザの訂正に応じた次の応答を出力する。そして、S413に処理が戻る。
If it is determined in S413 that the request for correction has been received, the process proceeds to S414. Then, in S414, the
一方、S413において、訂正の要求が受信されなかったと判定された場合、S415に処理が進む。そして、S415において、変換処理部230は、現在の応答の作成に用いた不明瞭語とユーザ音声データとに基づいて、ユーザ音声データベース415を更新する。そして、処理が終了する。
On the other hand, if it is determined in S413 that the request for correction has not been received, the process proceeds to S415. Then, in S415, the
以上の処理に基づき、実施形態では、端末装置100のユーザとサーバ装置200との間で、たとえば次の図5に示されるような会話が実行されうる。
Based on the above processing, in the embodiment, a conversation as shown in FIG. 5, for example, can be executed between the user of the
図5は、実施形態において端末装置100のユーザとサーバ装置200との間で実行される会話の一例を示した例示的かつ模式的な図である。
FIG. 5 is an exemplary and schematic diagram showing an example of a conversation performed between a user of a
図5に示される例では、まず、端末装置100のユーザにより、「1月の祝日をおしえて」という発話が実行される。この発話は、「1月」という、不明瞭語となりうる不明瞭区間を含んでいる。
In the example shown in FIG. 5, first, the user of the
ここで、サーバ装置200が「1月」という上記の不明瞭区間が「いちがつ」という不明瞭語であると特定した場合を考える。この場合、サーバ装置200は、変換データベース231(図2参照)に基づいて、「いちがつ」という変換語と、「睦月」という補足語とを取得する。したがって、この場合、サーバ装置200は、「1月睦月の祝日は元日と成人式です」という応答(「1月」は「いちがつ」と発音)を実行する。なお、「元日」および「成人式」という情報は、検索処理部250による検索の結果に基づいて取得される。
Here, consider a case where the
図5に示される例は、サーバ装置200の最初の解釈が正しい例に該当する。したがって、この場合、ユーザは、無応答(承認を示す何らかの応答であってもよい)により、会話に違和感が無い旨をサーバ装置200に示す。そして、会話が終了する。
The example shown in FIG. 5 corresponds to an example in which the first interpretation of the
一方、実施形態では、次の図6に示される例のような、サーバ装置200の最初の解釈が正しくない例も想定される。
On the other hand, in the embodiment, an example in which the initial interpretation of the
図6は、実施形態において端末装置100のユーザとサーバ装置200との間で実行される会話の図5とは異なる他の一例を示した例示的かつ模式的な図である。
FIG. 6 is an exemplary and schematic diagram showing another example of a conversation performed between a user of a
図6に示される例では、まず、端末装置100のユーザにより、「1月の祝日をおしえて」という発話が実行される。この発話は、「1月」という不明瞭区間を含んでいる。ここまでは図5に示される例と同様である。
In the example shown in FIG. 6, first, the user of the
ここで、図6に示される例では、図5に示される例と異なり、「1月」という不明瞭区間が、「しちがつ」という不明瞭語であると特定される。この場合、サーバ装置200は、変換データベース231(図2参照)に基づいて、「なながつ」という変換語と、「文月」という補足語とを取得する。したがって、この場合、サーバ装置200は、「7月文月の祝日は海の日とスポーツの日です」という応答(「7月」は「なながつ」と発音)を実行する。なお、「元日」および「成人式」という情報は、検索処理部250による検索の結果に基づいて取得される。
Here, in the example shown in FIG. 6, unlike the example shown in FIG. 5, the unclear section "January" is specified as the unclear word "shichigatsu". In this case, the
上記の会話において、ユーザが発話したのは「1月」であり、「7月」ではない。したがって、この場合、ユーザは、「7月は違う」というような、サーバ装置200の解釈が正しくないことを示す発話と行い、サーバ装置200に応答の訂正を要求する。
In the above conversation, the user spoke "January", not "July". Therefore, in this case, the user makes an utterance indicating that the interpretation of the
すると、サーバ装置200は、変換データベース231(図2参照)に基づいて、「いちがつ」という誤変換語を取得する。そして、サーバ装置200は、当該誤変換語を不明瞭語として用いて、変換データベース231から変換語および補足語を取得する。これにより、サーバ装置200は、「申し訳ありませんでした。1月睦月の祝日は元日と成人式です。」という応答を(「1月」は「いちがつ」と発音)を実行する。なお、「元日」および「成人式」という情報は、検索処理部250による検索の結果に基づいて取得される。
Then, the
上記の会話において、サーバ装置200が再度行った応答は正しい。したがって、この場合、ユーザは、無応答(承認を示す何らかの応答であってもよい)により、会話に違和感が無い旨をサーバ装置200に示す。そして、会話が終了する。
In the above conversation, the response made by the
最後に、実施形態にかかるサーバ装置200のハードウェア構成について説明する。実施形態にかかるサーバ装置200は、たとえば次の図7に示されるようなハードウェア構成を有するコンピュータ700として構成される。
Finally, the hardware configuration of the
図7は、実施形態にかかるサーバ装置200を構成するコンピュータ700のハードウェア構成の例を示した例示的かつ模式的なブロック図である。
FIG. 7 is an exemplary and schematic block diagram showing an example of the hardware configuration of the
図7に示されるように、コンピュータ700は、プロセッサ710と、メモリ720と、ストレージ730と、入出力インターフェース(I/F)740と、通信インターフェース(I/F)750と、を備えている。これらのハードウェアは、バス760に接続されている。
As shown in FIG. 7, the
プロセッサ710は、たとえばCPU(Central Processing Unit)として構成され、コンピュータ700の各部の動作を統括的に制御する。
The
メモリ720は、たとえばROM(Read Only Memory)およびRAM(Random Access Memory)を含み、プロセッサ710により実行されるプログラムなどの各種のデータの揮発的または不揮発的な記憶、およびプロセッサ710がプログラムを実行するための作業領域の提供などを実現する。
The
ストレージ730は、たとえばHDD(Hard Disk Drive)またはSSD(Solid State Drive)を含み、各種のデータを不揮発的に記憶する。
The
入出力インターフェース740は、たとえばキーボードおよびマウスなどのような入力装置(不図示)からコンピュータ700へのデータの入力と、たとえばコンピュータ700からディスプレイおよびスピーカなどのような出力装置(不図示)へのデータの出力と、を制御する。
The input /
通信インターフェース750は、コンピュータ700が他の装置と通信を実行することを可能にする。
The
実施形態において、サーバ装置200が有する図1に示される各構成は、プロセッサ710がメモリ720またはストレージ730などに記憶された情報処理プログラムを実行した結果として、ハードウェアとソフトウェアとの協働による機能モジュールとして実現される。ただし、実施形態では、図1に示される機能モジュール群のうち少なくとも一部が、専用のハードウェアのみによって実現されてもよい。
In the embodiment, each configuration shown in FIG. 1 of the
なお、上述した実施形態にかかる情報処理プログラムは、必ずしもメモリ720またはストレージ730に予め記憶されている必要はない。たとえば、上述した実施形態にかかる情報処理プログラムは、フレキシブルディスク(FD)のような各種の磁気ディスク、またはDVD(Digital Versatile Disk)のような各種の光ディスクなどといった、コンピュータで読み取り可能な記録媒体にインストール可能な形式または実行可能な形式で記録されたコンピュータプログラムプロダクトとして提供されてもよい。
The information processing program according to the above-described embodiment does not necessarily have to be stored in the
また、上述した実施形態にかかる情報処理プログラムは、インターネットなどのネットワーク経由で提供または配布されてもよい。すなわち、上述した実施形態にかかる情報処理プログラムは、インターネットなどのネットワークに接続されたコンピュータ上に格納された状態で、ネットワーク経由でのダウンロードを受け付ける、といった形で提供されてもよい。 Further, the information processing program according to the above-described embodiment may be provided or distributed via a network such as the Internet. That is, the information processing program according to the above-described embodiment may be provided in a state of being stored on a computer connected to a network such as the Internet and accepting downloads via the network.
なお、実施形態では、端末装置100も、サーバ装置200と同様に、図7に示されるようなハードウェア構成を有してコンピュータ700として構成されうる。したがって、実施形態の変形例として、サーバ装置200の機能モジュールの少なくとも一部が端末装置100に実装された構成も考えられる。したがって、実施形態の変形例として、端末装置100が本開示の「情報処理装置」に該当する例も考えられるし、端末装置100とサーバ装置200との組み合わせとしての情報処理システムが本開示の「情報処理装置」に該当する例も考えられる。
In the embodiment, the
以上説明したように、実施形態にかかるサーバ装置200は、解析処理部220と、変換処理部230と、を備えている。解析処理部220は、端末装置100から受信された音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する。変換処理部230は、認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語が特定された場合、不明瞭語から、不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する。
As described above, the
上記のような構成によれば、不明瞭語と同一の意味を持つ変換語を用いて、音声認識の際に発生しうる不明瞭語を適切に処理することができる。 According to the above configuration, it is possible to appropriately process an unclear word that may occur during speech recognition by using a converted word having the same meaning as the unclear word.
ここで、実施形態にかかるサーバ装置200は、変換語が取得された場合、変換語を不明瞭語の代替として用いて、音声データに対する応答を出力する応答処理部240をさらに備えている。このような構成によれば、変換語に基づく適切な応答を出力することができる。
Here, the
また、実施形態において、変換処理部230は、変換語が取得された場合、変換語を補足する語として予め設定された補足語をさらに取得する。そして、応答処理部240は、変換語に加えて補足語をさらに用いて、応答を出力する。このような構成によれば、変換語および補足語の両方に基づくさらに適切な応答を出力することができる。
Further, in the embodiment, when the conversion word is acquired, the
より具体的に、実施形態にかかるサーバ装置200は、不明瞭語と、変換語と、補足語と、不明瞭語の発音を示す所定の音声データと、の対応関係が予め設定された変換データベース231を備えている。そして、変換処理部230は、変換データベース231を参照し、端末装置100から受信された音声データのうち認識率が閾値を下回る形態素を示す不明瞭区間と、変換データベース231に設定された所定の音声データと、の類似度に基づいて、不明瞭区間に対応した不明瞭語を特定し、不明瞭語に対応した変換語および補足語を取得する。このような構成によれば、変換データベース231に基づいて、不明瞭語の特定および不明瞭語に対応した変換語および補足語の取得を容易に実行することができる。
More specifically, the
また、実施形態にかかるサーバ装置200は、不明瞭語と、不明瞭語のユーザごとの発音を示すユーザ音声データと、の対応関係が予め設定されたユーザ音声データベース232をさらに備えている。そして、変換処理部230は、不明瞭区間とユーザ音声データとの類似度に基づいて不明瞭語を特定するように変換データベース231に先立ってユーザ音声データベース232を参照する。そして、変換処理部230は、ユーザ音声データベース232から不明瞭語が特定された場合、ユーザ音声データベース232から特定された不明瞭語に基づいて、変換データベース231から変換語および補足語を取得する。このような構成によれば、変換データベース231とユーザ音声データベース232との2種類のデータベースに基づいて、不明瞭語の特定および不明瞭語に対応した変換語および補足語の取得をさらに容易に実行することができる。
Further, the
以上、本開示の実施形態を説明したが、上述した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上述した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態およびその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although the embodiments of the present disclosure have been described above, the above-described embodiments are presented as examples and are not intended to limit the scope of the invention. The novel embodiment described above can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. The above-described embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.
200 サーバ装置(情報処理装置)
220 解析処理部(取得処理部)
230 変換処理部
231 変換データベース
232 ユーザ音声データベース
240 応答処理部
200 Server device (information processing device)
220 Analysis processing unit (acquisition processing unit)
230
本開示の一例としての情報処理装置は、音声データの内容を示すデータとして音声認識により得られるテキストデータに含まれる形態素を、当該形態素ごとの音声認識の確からしさを示す認識率とともに取得する取得処理部と、認識率が閾値を下回る形態素から、発音が他の語と類似している不明瞭語が特定された場合、不明瞭語から、不明瞭語と同一の意味を持つ語として予め設定された変換語を取得し、変換語が取得された場合、変換語を補足する語として予め設定された補足語をさらに取得する変換処理部と、変換語が取得された場合、変換語を不明瞭語の代替として用いると共に、変換語に加えて補足語をさらに用いて、音声データに対する応答を出力する応答処理部と、不明瞭語と、変換語と、補足語と、不明瞭語の発音を示す所定の音声データと、の対応関係が予め設定された変換データベースと、を備え、変換処理部は、変換データベースを参照し、音声データのうち認識率が閾値を下回る形態素を示す不明瞭区間と、変換データベースに設定された所定の音声データと、の類似度に基づいて、不明瞭区間に対応した不明瞭語を特定し、不明瞭語に対応した変換語および補足語を取得する。 The information processing apparatus as an example of the present disclosure acquires morphological elements contained in text data obtained by voice recognition as data indicating the contents of voice data together with a recognition rate indicating the certainty of voice recognition for each morphological element. When an unclear word whose pronunciation is similar to another word is identified from the part and the morphological element whose recognition rate is below the threshold, the unclear word is preset as a word having the same meaning as the unclear word. When the converted word is acquired, the conversion processing unit which further acquires the supplementary word preset as the supplementary word for the converted word, and when the converted word is acquired, the converted word is unclear. A response processing unit that outputs a response to voice data by using supplementary words in addition to converted words as a substitute for words, and pronunciation of unclear words, converted words, supplementary words, and unclear words. A conversion database having a preset correspondence relationship with the predetermined voice data to be shown is provided, and the conversion processing unit refers to the conversion database and has an unclear section indicating a morphology whose recognition rate is below the threshold in the voice data. , The unclear word corresponding to the unclear section is specified based on the similarity with the predetermined voice data set in the conversion database, and the converted word and the supplementary word corresponding to the unclear word are acquired.
Claims (6)
前記認識率が閾値を下回る前記形態素から、発音が他の語と類似している不明瞭語が特定された場合、前記不明瞭語から、前記不明瞭語と同一の意味を持つ語として予め設定された変換語を取得する変換処理部と、
を備える、情報処理装置。 An acquisition processing unit that acquires morphemes contained in text data obtained by voice recognition as data indicating the contents of voice data together with a recognition rate indicating the certainty of the voice recognition for each morpheme.
When an unclear word whose pronunciation is similar to another word is identified from the morpheme whose recognition rate is below the threshold, the unclear word is preset as a word having the same meaning as the unclear word. A conversion processing unit that acquires the converted words, and
An information processing device equipped with.
請求項1に記載の情報処理装置。 When the converted word is acquired, the converted word is used as a substitute for the unclear word, and a response processing unit for outputting a response to the voice data is further provided.
The information processing apparatus according to claim 1.
前記応答処理部は、前記変換語に加えて前記補足語をさらに用いて、前記応答を出力する、
請求項2に記載の情報処理装置。 When the conversion word is acquired, the conversion processing unit further acquires a complement word preset as a word that supplements the conversion word.
The response processing unit outputs the response by further using the complement in addition to the converted word.
The information processing apparatus according to claim 2.
前記変換処理部は、前記変換データベースを参照し、前記音声データのうち前記認識率が閾値を下回る前記形態素を示す不明瞭区間と、前記変換データベースに設定された前記所定の音声データと、の類似度に基づいて、前記不明瞭区間に対応した前記不明瞭語を特定し、前記不明瞭語に対応した前記変換語および前記補足語を取得する、
請求項3に記載の情報処理装置。 Further provided with a conversion database in which a correspondence relationship between the unclear word, the converted word, the complement word, and a predetermined voice data indicating the pronunciation of the unclear word is preset.
The conversion processing unit refers to the conversion database, and is similar to the unclear section showing the morpheme whose recognition rate is below the threshold in the voice data and the predetermined voice data set in the conversion database. Based on the degree, the unclear word corresponding to the unclear section is specified, and the converted word and the supplementary word corresponding to the unclear word are acquired.
The information processing apparatus according to claim 3.
前記変換処理部は、前記不明瞭区間と前記ユーザ音声データとの類似度に基づいて前記不明瞭語を特定するように前記変換データベースに先立って前記ユーザ音声データベースを参照し、前記ユーザ音声データベースから前記不明瞭語が特定された場合、前記ユーザ音声データベースから特定された前記不明瞭語に基づいて、前記変換データベースから前記変換語および前記補足語を取得する、
請求項4に記載の情報処理装置。 Further provided with a user voice database in which a correspondence relationship between the unclear word and the user voice data indicating the pronunciation of the unclear word for each user is preset.
The conversion processing unit refers to the user voice database prior to the conversion database so as to identify the unclear word based on the similarity between the unclear section and the user voice data, and from the user voice database. When the obscure word is identified, the converted word and the supplementary word are acquired from the converted database based on the obscured word identified from the user voice database.
The information processing apparatus according to claim 4.
前記認識率が閾値を下回る前記形態素から、発音が他の語と類似している不明瞭語が特定された場合、前記不明瞭語から、前記不明瞭語と同一の意味を持つ語として予め設定された変換語を取得することと、
をコンピュータに実行させるための、情報処理プログラム。 To acquire morphemes contained in text data obtained by voice recognition as data indicating the contents of voice data together with a recognition rate indicating the certainty of the voice recognition for each morpheme.
When an unclear word whose pronunciation is similar to another word is identified from the morpheme whose recognition rate is below the threshold, the unclear word is preset as a word having the same meaning as the unclear word. To get the translated word,
An information processing program that allows a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020131827A JP6836094B1 (en) | 2020-08-03 | 2020-08-03 | Information processing equipment and information processing programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020131827A JP6836094B1 (en) | 2020-08-03 | 2020-08-03 | Information processing equipment and information processing programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6836094B1 JP6836094B1 (en) | 2021-02-24 |
JP2022028436A true JP2022028436A (en) | 2022-02-16 |
Family
ID=74665118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020131827A Expired - Fee Related JP6836094B1 (en) | 2020-08-03 | 2020-08-03 | Information processing equipment and information processing programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6836094B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008287517A (en) * | 2007-05-17 | 2008-11-27 | National Institute Of Information & Communication Technology | Highlight display device and program |
JP2018004976A (en) * | 2016-07-04 | 2018-01-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Voice interactive method, voice interactive device and voice interactive program |
JP2018045001A (en) * | 2016-09-12 | 2018-03-22 | 株式会社リコー | Voice recognition system, information processing apparatus, program, and voice recognition method |
-
2020
- 2020-08-03 JP JP2020131827A patent/JP6836094B1/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008287517A (en) * | 2007-05-17 | 2008-11-27 | National Institute Of Information & Communication Technology | Highlight display device and program |
JP2018004976A (en) * | 2016-07-04 | 2018-01-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Voice interactive method, voice interactive device and voice interactive program |
JP2018045001A (en) * | 2016-09-12 | 2018-03-22 | 株式会社リコー | Voice recognition system, information processing apparatus, program, and voice recognition method |
Also Published As
Publication number | Publication date |
---|---|
JP6836094B1 (en) | 2021-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11049493B2 (en) | Spoken dialog device, spoken dialog method, and recording medium | |
JP4267101B2 (en) | Voice identification device, pronunciation correction device, and methods thereof | |
US8954333B2 (en) | Apparatus, method, and computer program product for processing input speech | |
US11093110B1 (en) | Messaging feedback mechanism | |
US20200111474A1 (en) | Systems and methods for generating alternate audio for a media stream | |
JP6327848B2 (en) | Communication support apparatus, communication support method and program | |
US8509396B2 (en) | Automatic creation of complex conversational natural language call routing system for call centers | |
JP2019046468A (en) | Interface smart interactive control method, apparatus, system and program | |
JP2020505643A (en) | Voice recognition method, electronic device, and computer storage medium | |
US11562743B2 (en) | Analysis of an automatically generated transcription | |
KR20190032498A (en) | Acoustic model training using modified terms | |
EP3736807A1 (en) | Apparatus for media entity pronunciation using deep learning | |
KR20210060897A (en) | Method and apparatus for processing speech | |
US11227116B2 (en) | Translation device, translation method, and program | |
JP2018045639A (en) | Dialog log analyzer, dialog log analysis method, and program | |
JP5025759B2 (en) | Pronunciation correction device, pronunciation correction method, and recording medium | |
JP5901694B2 (en) | Dictionary database management device, API server, dictionary database management method, and dictionary database management program | |
JP7034027B2 (en) | Recognition device, recognition method and recognition program | |
WO2022260790A1 (en) | Error correction in speech recognition | |
JP6836094B1 (en) | Information processing equipment and information processing programs | |
JP4220151B2 (en) | Spoken dialogue device | |
JP7414078B2 (en) | Conversion table generation device, voice dialogue system, conversion table generation method, and computer program | |
CN111626059B (en) | Information processing method and device | |
WO2014197592A2 (en) | Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning | |
US11900072B1 (en) | Quick lookup for speech translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200811 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200811 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200923 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6836094 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |