JP7096199B2 - Information processing equipment, information processing methods, and programs - Google Patents
Information processing equipment, information processing methods, and programs Download PDFInfo
- Publication number
- JP7096199B2 JP7096199B2 JP2019092572A JP2019092572A JP7096199B2 JP 7096199 B2 JP7096199 B2 JP 7096199B2 JP 2019092572 A JP2019092572 A JP 2019092572A JP 2019092572 A JP2019092572 A JP 2019092572A JP 7096199 B2 JP7096199 B2 JP 7096199B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- index value
- vector
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 60
- 238000003672 processing method Methods 0.000 title claims description 6
- 239000013598 vector Substances 0.000 claims description 222
- 238000004458 analytical method Methods 0.000 claims description 97
- 238000006243 chemical reaction Methods 0.000 claims description 73
- 238000012545 processing Methods 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 34
- 238000009795 derivation Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 30
- 238000000605 extraction Methods 0.000 description 49
- 238000004364 calculation method Methods 0.000 description 47
- 238000012821 model calculation Methods 0.000 description 25
- 238000011156 evaluation Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 230000000877 morphologic effect Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Description
本発明は、情報処理装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.
音声認識結果を含む確からしさに基づいて音声認識を行う技術が知られている(特許文献1参照)。確からしさは、例えば、コーパスとの単純な比較結果や、音声認識結果とコーパスとの類似度を評価する結果に基づいて設定される。 A technique for performing speech recognition based on the certainty including the speech recognition result is known (see Patent Document 1). The certainty is set based on, for example, a simple comparison result with the corpus or a result of evaluating the similarity between the speech recognition result and the corpus.
しかしながら、従来の技術では、コーパスの各語に対して数万個ある潜在語候補から好適な候補を抽出するための処理に時間を要し、効率的な音声認識処理が実現されない可能性があった。また、コーパスの各語から好適な候補を抽出することの精度向上が十分検討されていない可能性があった。 However, with the conventional technique, it takes time to extract a suitable candidate from tens of thousands of latent word candidates for each word of the corpus, and there is a possibility that efficient speech recognition processing cannot be realized. rice field. In addition, there is a possibility that improvement in the accuracy of extracting suitable candidates from each word of the corpus has not been sufficiently examined.
本発明は、このような事情を考慮してなされたものであり、より効率的、且つ高精度に音声認識処理をすることができる情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and an object of the present invention is to provide an information processing device, an information processing method, and a program capable of performing voice recognition processing more efficiently and with high accuracy. It is one of.
本発明の一態様は、音声データを取得する取得部と、前記音声データを解析してテキストに変換する解析部と、前記解析部による解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行う指標値導出部と、前記解析部により解析された文を分散表現によるベクトル値に変換するベクトル変換部と、前記指標値導出部により導出された前記第1指標値と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択する選択部と、意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、前記選択部により選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成する生成部と、を備える、情報処理装置である。 One aspect of the present invention is for each of an acquisition unit for acquiring voice data, an analysis unit for analyzing the voice data and converting it into a text, and a plurality of first words included in the text of the analysis result by the analysis unit. , The first index which evaluated the frequency of the first word in the analyzed sentence included in the text and including the first word, and the rarity of the first word with respect to the sentence included in the library information. An index value derivation unit that derives a value and associates it with the analyzed sentence, a vector conversion unit that converts a sentence analyzed by the analysis unit into a vector value by distributed representation, and an index value derivation unit that is derived. The meaning is known and the vector value is the selection unit that selects a part of the sentence to be analyzed or the sentence of interest based on the first index value and the conversion result by the vector conversion unit. Information including a generation unit that generates data in which the meaning of a teacher sentence whose vector value is close to that of the selection sentence selected by the selection unit is associated with the meaning of the selection sentence among the required teacher sentences. It is a processing device.
本発明の一態様によれば、より効率的、且つ高精度に音声認識処理をすることができる。 According to one aspect of the present invention, voice recognition processing can be performed more efficiently and with high accuracy.
以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。 Hereinafter, embodiments of the information processing apparatus, information processing method, and program of the present invention will be described with reference to the drawings.
[概要]
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、利用者の発した音声を収録した音声データを受信し、受信した入力データの音声認識処理を行い、認識の結果に基づいて種々の処理を行う装置(以下、「端末装置」と称する)に対して、言語モデルを提供するための装置である。種々の処理としては、音声を発した利用者の意図に沿ったIoT(Internet of Things)機器の制御を行うこと、利用者の質問に対して応答することなどがある。
[Overview]
The information processing device is realized by one or more processors. The information processing device receives voice data recording the voice emitted by the user, performs voice recognition processing of the received input data, and performs various processing based on the recognition result (hereinafter, "terminal device"). It is a device for providing a language model for (referred to as). Various processes include controlling the IoT (Internet of Things) device according to the intention of the user who emitted the voice, and responding to the user's question.
言語モデルとは、音声認識処理において、入力データをテキスト変換する自然言語処理モデルであり、入力結果をテキストに変換した結果が正解である可能性の高い変換結果についての確率を内包するものである。以下、利用者の意図する端末装置の動作を「タスク」と称する場合がある。なお音声データは、圧縮や暗号化などの処理が施されたものであってもよい。 The language model is a natural language processing model that converts input data into text in speech recognition processing, and includes the probability of the conversion result that the result of converting the input result into text is likely to be the correct answer. .. Hereinafter, the operation of the terminal device intended by the user may be referred to as a "task". The voice data may be compressed or encrypted.
図1は、実施形態に係る情報処理装置100の使用環境の一例を示す図である。
FIG. 1 is a diagram showing an example of a usage environment of the
図示する環境では、端末装置20、制御対象デバイス30、およびサービスサーバ40は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、インターネット、プロバイダ装置、無線基地局、専用回線などのうちの一部または全部を含む。図1に示す例では、制御対象デバイス30の数は、N(Nは、1以上の整数)個である。なお、本明細書では、制御対象デバイス30-1~30-Nにおいて、共通の事項を説明する場合など、個々の制御対象デバイス30-1~30-Nを区別しない場合には、単に制御対象デバイス30と呼ぶ。
In the illustrated environment, the
端末装置20は、利用者の音声入力を受け付ける装置である。端末装置20は、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータ、スマートスピーカ(AIスピーカ)等である。
The
制御対象デバイス30は、通信機能と、外部からの制御を受け付けるインターフェースとを備え、利用者により操作される端末装置20からの指令に応じて制御可能なIoT機器である。制御対象デバイス30は、例えば、テレビやラジオ、照明器具、冷蔵庫、電子レンジ、洗濯機、炊飯器、自走式掃除機、空調機器、車両などである。
The
なお、制御対象デバイス30は、端末装置20自身である可能性がある。すなわち、端末装置20は、情報処理装置100による処理結果に応じて何らかの検索処理を行ったり、電話をかけたり、メッセージを送信したりすることがある。
The controlled
サービスサーバ40は、利用者により操作される端末装置20からの指令に対応するウェブページを提供するウェブサーバ装置、アプリケーションが起動された端末装置20と通信を行って各種情報の受け渡しを行ってコンテンツを提供するアプリケーションサーバ装置等である。
The service server 40 communicates with a web server device that provides a web page corresponding to a command from the
図2は、情報処理装置100の処理を模式的に示す図である。
FIG. 2 is a diagram schematically showing the processing of the
情報処理装置100は、利用者が端末装置20を介して入力された音声データを音響モデルに適用することで音素に変換し、音素に基づいて1以上の抽出対象テキスト(音声データに含まれる音をテキスト化したもの)を生成し、さらに生成した抽出対象テキストのうち既知のタスク特徴量との比較に基づいて選択した抽出対象テキストを言語モデルに適用することで、好適候補を選択する。好適候補とは、抽出対象テキストの中で利用者の意図が反映された可能性が高い好適なテキストであると判定されたものであって、端末装置20または制御対象デバイスの操作を示唆するテキストである。
The
音響モデルとは、周波数成分や時間変化を統計的に分析し、入力された音声データがどのような音素で構成されるか(何と言っているか)を判別するためのモデルである。音素とは、アルファベットや仮名などの言語の最小単位を特定するためのラベルであり、例えば、母音や子音等を含む。情報処理装置100は、音素を言語ルールに従って適宜、結合することで抽出対象テキストを得る。
The acoustic model is a model for statistically analyzing frequency components and time changes to determine what kind of phonemes the input voice data is composed of (what is said). A phoneme is a label for specifying the smallest unit of a language such as an alphabet or a kana, and includes, for example, a vowel or a consonant. The
図2に示すように、音素変換の結果、生成した抽出対象テキストが“kyonotenki”である場合、例えば、”k”や”t”は生成した抽出対象テキストに含まれる音素を示すものである。音声認識処理が日本語を前提として行われる場合、抽出対象テキストは、アルファベット表記で表されてもよいし、ひらがな表記またはカタカナ表記で表されてもよい。図2に示す例において、情報処理装置100は、受け付けた音声データに基づいて、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む抽出対象テキストを生成する。
As shown in FIG. 2, when the extraction target text generated as a result of phoneme conversion is “kyonotenki”, for example, “k” and “t” indicate phonemes included in the generated extraction target text. When the voice recognition process is performed on the premise of Japanese, the text to be extracted may be expressed in alphabetical notation, hiragana notation, or katakana notation. In the example shown in FIG. 2, the
情報処理装置100の生成する言語モデルは、図2に示す例において、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む変換候補のそれぞれに対して形態素解析を行う。形態素解析とは、抽出対象テキストを構成する単語の区切りを決定し、区切られたそれぞれの単語の例えば品詞を導出する処理である。形態素解析は、例えば、MeCABなどの形態素解析エンジンを利用して行われる。
The language model generated by the
言語モデルは、例えば、抽出対象テキスト“kyonotenki”を解析した結果、「今日(kyo)」、「の(no)」、「天気(tenki)」の3つの単語を導出する。同様に、抽出対象テキスト“kyonotenkii”を解析した結果、「今日(kyo)」、「の(no)」、「テンキー(tenkii)」を、抽出対象テキスト“kyonodenki”を解析した結果、「京(kyo)」、「の(no)」、「電気(denki)」を生成する。このように、音声入力をひらがなから漢字変換する場合に、複数パターンの変換候補が生成される可能性がある。 For example, the language model derives three words "today (kyo)", "no (no)", and "weather (tenki)" as a result of analyzing the extraction target text "kyonotenki". Similarly, as a result of analyzing the extraction target text "kyonotenkii", "today (kyo)", "(no)", "tenkii", and as a result of analyzing the extraction target text "kyonodenki", "Kyo (kyo)" kyo) ”,“ no (no) ”,“ electricity (denki) ”are generated. In this way, when converting voice input from Hiragana to Kanji, there is a possibility that conversion candidates for a plurality of patterns will be generated.
言語モデルは、1以上の抽出対象テキストのそれぞれから生成した解析結果を評価する評価値を生成し、その評価値に基づいて複数パターンの変換候補の中から1つの抽出対象テキストを選択する。より具体的に、情報処理装置100は、抽出対象テキストの解析結果の、既知のタスク音声から得られた特徴量との適合率を評価し、利用者の意図に沿ったものと推定される好適候補を選択する。そして、情報処理装置100は、意図に対応する出力情報を生成するタスクに関する命令を出力する。
The language model generates an evaluation value for evaluating the analysis result generated from each of one or more extraction target texts, and selects one extraction target text from a plurality of patterns of conversion candidates based on the evaluation value. More specifically, the
[WFST]
図3~図5は、音響モデルおよび言語モデルにより実現される、WFST(Weighted Finite-state Transducer;重みつき有限状態トランスデューサ)について説明するための図である。WFSTとは、入力データを「変換候補」と「その変換候補の確からしさの推定値」に変換する機構の一例である。
[WFST]
3 to 5 are diagrams for explaining a WFST (Weighted Finite-state Transducer) realized by an acoustic model and a language model. WFST is an example of a mechanism for converting input data into a "conversion candidate" and an "estimated value of the certainty of the conversion candidate".
WFSTを用いた音声認識が行われる場合、端末装置20が受け付けた音声入力は、音響モデルによりトリフォン(Triphon)などの文脈依存の音素に変換される(図3)。次に、音響モデル(または言語モデル)は、音素から単語に変換する(図4)。次に、言語モデルは、単語から音声入力の変換結果となるテキストを生成する(図5)。言語モデルは、例えば、N-gram言語モデルである。例えば、言語モデルとして3-gramが採用される場合、3単語ごとに区切り、3単語ごとに意味合いが成立するか否かに基づいてテキスト全体の構成を決定する。
When voice recognition using WFST is performed, the voice input received by the
情報処理装置100は、上述のような形態素解析や、WFSTを用いた音声認識がより高速に、かつより高い処理精度で行われるように、好適な言語モデルを生成する。
The
[全体構成]
図6は、情報処理装置100の構成図である。情報処理装置100は、例えば、取得部102と、解析部104と、頻出性計算部106と、希少性計算部108と、W2V(Word2Vec)実行部110と、ベクトル変換部112と、選択部114と、言語モデル演算部116と、指令出力部118と、記憶部120とを備える。これらの構成要素(記憶部120を除く)は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。
[overall structure]
FIG. 6 is a block diagram of the
また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め情報処理装置100のHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで情報処理装置100のHDDやフラッシュメモリにインストールされてもよい。
In addition, some or all of these components are hardware (circuits) such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), and GPU (Graphics Processing Unit). It may be realized by the part; including circuitry), or it may be realized by the cooperation of software and hardware. The program may be stored in advance in a storage device (a storage device including a non-transient storage medium) such as an HDD or a flash memory of the
記憶部120は、例えば、RAM(Random Access Memory)、レジスタ、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)などにより実現される。記憶部120は、例えば、音響モデル120a、言語モデル120b、コーパスの解析結果120c、タスクテキストの解析結果120d、抽出対象テキストの解析結果120e、単語ベクトルリスト120f、ベクトルリスト120g、言語モデル演算用テキスト120hなどの情報を記憶する。ベクトルリスト120gには、例えば、タスクテキストベクトルリスト120iと、抽出対象テキストベクトルリスト120jとが含まれる。
The
取得部102は、情報処理装置100が音声認識処理を行う上でコーパスとして利用する文字情報(以下、「コーパスI1」と称する)を取得し、解析部104に出力する。コーパスI1には、例えば、ニュース等の記事データや、SNS(Social Networking Service)の投稿データが含まれる。コーパスI1は、「ライブラリ情報」の一例である。
The
なお、コーパスI1は、口語形式のテキスト(例えば、SNSにおける投稿履歴や、自動応答装置における利用者と装置の会話履歴の書き下し文、現実の会話をテキストに直したもの、端末装置20から取得した音声入力に対する自装置の処理履歴の書き下し文など)であることが望ましい。
The corpus I1 is a colloquial text (for example, a post history in the SNS, a written sentence of the conversation history between the user and the device in the automatic response device, a text converted from the actual conversation, and a voice acquired from the
また、取得部102は、情報処理装置100の管理者が設定した定型タスクを示す文字情報のデータセット(以下、「タスクテキストI2」と称する)を取得し、解析部104に出力する。タスクテキストI2は「教師文」の一例である。
Further, the
また、取得部102は、端末装置20の利用者により入力された音声データ(以下、「音声データI3」と称する)を取得し、解析部104に出力する。取得部102が取得した音声データI3に利用者の位置情報を含む場合がある。位置情報とは、例えば、端末装置20に含まれるGNSS(Global Navigation Satellite System)受信装置による処理結果であってもよい。また、端末装置20が主として特定の場所(例えば、利用者のリビング、利用者のオフィスなど)で利用される装置である場合には、その特定の場所に関する情報が位置情報に相当する。
Further, the
解析部104は、取得部102により取得された情報に対して、解析を行い、テキスト(文字データ)に変換する。解析部104による解析とは、例えば、形態素解析である。
The
解析部104は、例えば、取得部102により出力されたコーパスI1に対して解析を行う。解析部104は、例えば、取得部102により出力されたコーパスI1を名詞、動詞、助詞等の品詞の単位で分解する。解析部104は、解析結果をコーパスの解析結果120cとして記憶部120に格納する。
The
また、解析部104は、取得部102より出力されたタスクテキストI2を解析し、解析結果をタスクテキストの解析結果120dとして記憶部120に格納する。
Further, the
また、解析部104は、取得部102により出力された音声データI3を音響モデル120aに適用して1以上の抽出対象テキストを生成した後に、それぞれの抽出対象テキストに対して形態素解析等の解析処理を行う。また、解析部104は、解析結果を抽出対象テキストの解析結果120eとして記憶部120に格納する。
Further, the
頻出性計算部106は、抽出対象テキストの解析結果120eから、抽出対象テキストに含まれる一文(以下、「被解析文」と称する)に含まれる複数の単語(以下、「第1ワード」と称する)のそれぞれについて頻出性を示す指標値を計算して、被解析文に対応付ける。頻出性計算部106は、例えば、抽出対象テキストの解析結果120eから、抽出対象テキストに含まれる一文に含まれる複数の単語のそれぞれについて、tf値(Term Frequency Value;頻出性を示す指標値)を計算して被解析文に対応付ける。
The
なお、頻出性計算部106は、コーパスの解析結果120cに含まれる一文に含まれる単語(以下、「第2ワード」と称する)のそれぞれに対するtf値をあらかじめ計算しておく。頻出性計算部106は、コーパスの解析結果120cに含まれる複数の第2ワードのそれぞれについて、コーパスの解析結果120cに含まれ且つ第2ワードが含まれるコーパスの一文(以下、「着目文」と称する)の中における第2ワードのtf値をあらかじめ計算しておき、着目文に対応付けておく。
The
希少性計算部108は、抽出対象テキストの解析結果120eから、抽出対象テキストに含まれる被解析文に含まれる第1ワードのそれぞれに対する希少性を示す指標値を計算して、被解析文に対応付ける。希少性計算部108は、例えば、抽出対象テキストの解析結果120eから、抽出対象テキストに含まれる被解析文に含まれる第1ワードのそれぞれに対するidf値(Inversed Document Frequency Value;希少性を示す指標値)を計算して、被解析文に対応付ける。
The
なお、希少性計算部108は、コーパスの解析結果120cに含まれる一文に含まれる第2ワードのそれぞれに対するidf値をあらかじめ計算しておき、着目文に対応付けておく。
The
頻出性計算部106および希少性計算部108は、第1ワードに対する指標値の設定と、第2ワードに対する指標値の設定のうち、少なくとも一方を行う。頻出性計算部106および希少性計算部108を併せ持つものは、「指標値導出部」の一例である。抽出対象テキストの解析結果120eに関する頻出性計算部106および希少性計算部108による計算結果は「第1指標値」の一例であり、コーパスの解析結果120cに関する頻出性計算部106および希少性計算部108による計算結果は「第2指標値」の一例である。
The
W2V実行部110は、解析部104により解析された文に含まれる単語のそれぞれを分散表現によるベクトル値に変換する。W2V実行部110は、例えば、コーパスの解析結果120cをベクトル値に変換し、変換結果を単語ベクトルリスト120fに格納する。
The W2V execution unit 110 converts each of the words included in the sentence analyzed by the
ベクトル変換部112は、解析部104により解析された文を分散表現によるベクトル値に変換する。ベクトル変換部112により生成されるベクトル値は、W2V実行部110により変換されたベクトル値と、頻出性計算部106および希少性計算部108による計算結果のうち、第1ワードに対する指標値または第2ワードに対する指標値のうち少なくとも一方に基づくものである。
The
ベクトル変換部112は、抽出対象テキストの解析結果120eおよび単語ベクトルリスト120fのベクトル値を用いて、抽出対象テキストの文単位のベクトル値(以下、抽出対象テキストの文ベクトル、または単に「文ベクトル」と称する)を生成する。
The
文ベクトルは、例えば、抽出対象テキストの解析結果120eがW2V実行部110により変換されたベクトル値と、頻出性計算部106および希少性計算部108による計算結果(以下、「tf-idf値」と称する)とを含むものである。ベクトル変換部112は、抽出対象テキストの文ベクトルを選択部114に出力する。
The sentence vector is, for example, a vector value obtained by converting the
また、ベクトル変換部112は、タスクテキストの解析結果120dおよび単語ベクトルリスト120fのベクトル値を用いて、タスクテキストの文単位のベクトル値(以下、「タスクテキストの文ベクトル」と称する)を生成する。ベクトル変換部112は、タスクテキストの文ベクトルを選択部114に出力する。
Further, the
選択部114は、言語モデル120bの生成過程において、抽出対象テキストの文ベクトルおよびタスクテキストの文ベクトルに基づいて、言語モデル120bの元となる(言語モデル120bに反映させる)文ベクトルを選択する。言語モデル120bの元となる文ベクトルの導出元であるテキストは、「選択文」の一例である。選択部114は、選択結果を言語モデル演算部116に出力する。
In the process of generating the
また、選択部114は、言語モデル120bの使用過程(情報処理装置100による音声認識処理過程)において、ベクトル変換部112による変換結果の一部または全部を言語モデル演算部116に出力する。
Further, in the process of using the
選択部114は、例えば、信頼度導出部114aを備える。信頼度導出部114aによる優先度導出処理については後述する。
The
言語モデル演算部116は、言語モデル120bに関連する処理を行う。
The language
言語モデル演算部116は、例えば、言語モデル生成部116aを備える。言語モデル生成部116aは、言語モデル120bの生成過程において、選択部114により出力された選択結果を適用した言語モデルを生成し、言語モデル120bとして記憶部120に格納する。言語モデル生成部116aは、例えば、情報処理装置100の管理者があらかじめ設定した言語モデル演算用テキスト120h、および選択部114により選択された変換候補に基づいて言語モデル120bを生成する。
The language
言語モデル演算用テキスト120hとは、例えば、情報処理装置100の管理者が想定するタスクテキストの文ベクトルや、過去の情報処理装置100の音声認識処理履歴として保持する文ベクトルである。言語モデル演算用テキスト120hには、コーパスI1やタスクテキストI2、音声データI3などと同一または類似の文から生成された文ベクトルが含まれてもよい。選択部114は、頻出性計算部106および希少性計算部108による第1ワードのtf-idf値または第2ワードのtf-idf値のうち少なくとも一方と、ベクトル変換部112による変換結果とに基づいて、被解析文または着目文から一部の文を選択する。
The language model calculation text 120h is, for example, a sentence vector of a task text assumed by the administrator of the
また、言語モデル演算部116は、言語モデル120bの使用過程(情報処理装置100による音声認識処理過程)において選択部114により出力された選択結果を言語モデル120bに適用し、適用した結果を指令出力部118に出力する。
Further, the language
指令出力部118は、言語モデル120bの使用過程(情報処理装置100による音声認識処理過程)において、ベクトル変換部112により変換されたベクトル値に基づいて、被認識文(選択された被解析文、または着目文)の意味合いを推定し、推定結果に基づく指令に関する情報(または指令そのもの)を出力する。指令出力部118により出力される指令には、端末装置20に行わせたい処理の指示、出力先の制御対象デバイス30を特定する情報、出力先の制御対象デバイス30に対する処理リクエストなどが含まれる。
The
指令出力部118は、例えば、言語モデル演算部116により出力された、言語モデル120bへの適用結果である好適候補が「今日の天気を教えて」である場合、サービスサーバ40の提供する天気予報のウェブサイトに対してリクエストを送信し、端末装置20に送信するための指令の応答の一部または全部を含む情報を出力情報とする。
The
また、指令出力部118は、例えば、好適候補が「音楽の音量を下げて」である場合、音楽再生中の制御対象デバイス30を特定し、音量を下げる命令を出力する。なお、指令出力部118は、出力先が制御対象デバイス30の出力情報を生成する場合、端末装置20に制御対象デバイス30に対して出力情報を出力したことを通知する出力情報を併せて生成してもよい。
Further, for example, when the suitable candidate is "lower the volume of music", the
〔W2Vベクトル変換〕
図7は、W2V実行部110によるベクトル変換処理を説明するための図である。
[W2V vector conversion]
FIG. 7 is a diagram for explaining the vector conversion process by the W2V execution unit 110.
W2V実行部110は、例えば、コーパスの解析結果120cに含まれる各単語の意味をベクトル表現化(分散表現化)して単語ベクトルを生成する。図7の例では、W2V実行部110は、「ボリューム」の単語ベクトルを生成している。
The W2V execution unit 110 generates a word vector by vector-expressing (distributed representation) the meaning of each word included in the
W2V実行部110は、「音」と「ボリューム」、「ミュージック」と「音楽」のように意味の近い単語同士で単語ベクトル間の距離(コサイン類似度)が近くなるように、単語ベクトルを生成する。W2V実行部110は、生成したベクトル値を記憶部に単語ベクトルリスト120fとして記憶部120に格納する。
The W2V execution unit 110 generates a word vector so that the distance (cosine similarity) between word vectors is close between words having similar meanings such as "sound" and "volume", and "music" and "music". do. The W2V execution unit 110 stores the generated vector value in the
また、W2V実行部110は、単語ベクトルリスト120fに記憶されていない単語がタスクテキストまたは抽出対象テキストに含まれる場合、タスクテキストの解析結果120d、または抽出対象テキストの解析結果120eを、例えばコーパスに追加することで同様に解析し、それらのベクトル値を生成してもよい。このベクトル値は、W2V実行部110による処理の都度、単語ベクトルリスト120fに反映されてもよいし、反映されなくてもよい。
Further, when the task text or the extraction target text contains a word that is not stored in the
[文ベクトル]
図8は、文ベクトルについて説明するための図である。
[Sentence vector]
FIG. 8 is a diagram for explaining a sentence vector.
ベクトル変換部112は、例えば、「ボリュームを下げて」の文ベクトルを生成する場合、「ボリューム」、「を」、および「下げて」の単語ベクトルに所定の演算を行うことで(例えば、それぞれの単語ベクトルを加算することで)、文ベクトルを生成する。
For example, when the
この結果、文を構成する単語の単語ベクトルを合計した文ベクトルについても同様に、「音楽の音を小さくして」と「ボリュームを下げて」のように意味が近い文の文ベクトル同士の距離は近くなる。 As a result, for the sentence vector that is the sum of the word vectors of the words that make up the sentence, the distance between the sentence vectors of sentences that have similar meanings such as "make the sound of music quieter" and "lower the volume". Will be closer.
また、ベクトル変換部112は、タスクテキストの解析結果120dおよびW2V実行部110により出力された単語ベクトルを用いて、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト120iとして記憶部120に格納する。タスクテキストは、利用者の意図を含んでいることが既知のテキストであり、例えば、情報処理装置100の管理者によってあらかじめ設定される。
Further, the
[候補選択]
選択部114は、言語モデル演算部116により出力された抽出対象テキストを評価値に基づいて評価することで、利用者の入力意図が反映された可能性の高い好適候補を選択する。選択部114は、選択結果である好適候補を言語モデル演算部116に出力する。
[Candidate selection]
The
図9は、選択部114による好適候補選択を模式的に示す図である。
FIG. 9 is a diagram schematically showing suitable candidate selection by the
言語モデルとは、抽出対象テキストから、好適候補を生成するためのモデルである。選択部114は、例えば、候補ベクトルの文ベクトルとタスクテキストの文ベクトルの類似度から、タスクテキストに近いものほど高い評価値を与え、更に、言語モデルを用いて、単語の並びに関するスコアが高いものほど高い評価値を与える、これらの評価値を総合評価することで、好適候補を選択する。なお、言語モデルは、利用者の周辺環境を加味して評価を行うものでもよい。
The language model is a model for generating suitable candidates from the text to be extracted. For example, from the similarity between the sentence vector of the candidate vector and the sentence vector of the task text, the
[タスクテキスト]
以下、タスクテキストについて説明する。情報処理装置100の管理者は、例えば、端末装置20の過去の音声入力履歴や、情報処理装置100の処理履歴に基づいて、言語モデル120bが生成される過程において選択部114が評価基準として参照するタスクテキストI2を抽出する。
[Task text]
The task text will be described below. The administrator of the
図10は、タスクテキストを説明するための図である。 FIG. 10 is a diagram for explaining the task text.
図10の左図は、端末装置20の過去の音声入力履歴の音声認識結果R1~R7を示す。音声認識結果には、端末装置20の利用者の入力意図が反映されたものと、利用者には入力意図はないが音声認識されたものとが含まれる。
The left figure of FIG. 10 shows the voice recognition results R1 to R7 of the past voice input history of the
情報処理装置100の管理者は、例えば、音声認識結果R4をタスクに近いテキストであると判別した場合、図10の右上図に示すように優先度を高く設定する。「タスクに近い」とは、利用者の入力意図が反映された可能性が高いテキストが含まれることであり、端末装置20または制御対象デバイス30に対する操作の意味合いが高いテキストが含まれることである。
For example, when the administrator of the
また、情報処理装置100の管理者は、音声認識結果のR6をタスクから遠いテキストであると判別した場合、図10の右下図に示すように優先度を低く設定する。
Further, when the administrator of the
また、情報処理装置100の管理者は、音声認識結果R1、R2、R3、R5、およびR7についてもタスクから遠いテキストであると判別し、優先度を低く設定する。タスクテキストの優先度は、例えば、タスクテキストの文ベクトル値とともに、タスクテキストベクトルリスト120iに登録される。
Further, the administrator of the
タスクテキストベクトルリスト120iは、10個程度のクラスタ構造をとってもよく、その場合タスクの意味内容が類似するタスクテキストをクラスタとして取りまとめる。クラスタは、例えば、k平均法(k-means clustering)等により構成される。意味内容の類似評価については後述する。 The task text vector list 120i may have a cluster structure of about 10, and in that case, the task texts having similar meanings and contents of the tasks are collected as a cluster. The cluster is configured by, for example, the k-means clustering method or the like. Similar evaluation of meaning and content will be described later.
また、タスクテキストベクトルリスト120iには、被検索効率を高めることを目的としてクラスタ毎に代表ベクトルが設定され、その代表ベクトルが格納されてもよい。代表ベクトルとは、例えば、クラスタを構成するタスクテキストの文ベクトルの平均でもよいし、タスクテキストの優先度と文ベクトルによる加重平均であってもよい。 Further, in the task text vector list 120i, a representative vector may be set for each cluster for the purpose of improving the search efficiency, and the representative vector may be stored. The representative vector may be, for example, the average of the sentence vectors of the task texts constituting the cluster, or may be the weighted average of the priority of the task texts and the sentence vectors.
なお、選択部114は、抽出対象テキストに位置情報が付与される場合、その位置情報から利用者の入力環境を推定し、抽出対象テキスト利用者のタスクの実行意図を含むものであるか否かを判別し、判別結果に基づいて後続の処理を行ってもよい。
When position information is given to the text to be extracted, the
例えば、選択部114は、抽出対象テキストの位置情報から利用者が自宅リビングにいることが推定される場合には、リビングで利用する制御対象デバイス30に関するタスクの適合率を高く設定し、同時にオフィスで利用する制御対象デバイス30に関するタスクの適合率を低く設定することで対応するタスクが選択される確度(適合率の高さ)を変更してよい。
For example, when the user is estimated to be in the living room at home from the position information of the text to be extracted, the
例えば、図10の例においては、音声データI3が利用者の自宅リビングに対応付いた位置情報を持つ場合に、「年休がほしい」よりも「電球がほしい」というタスクの実行意図を含むテキストが認識される可能性が高いため、「電球がほしい」の適合率を高く設定している。一方、音声データI3が利用者のオフィスに対応付いた位置情報を持つ場合に、「電球がほしい」よりも「年休がほしい」というタスクの実行意図を含むテキストが認識される可能性が高い場合(「電球が欲しい」という音声データI3を受け付ける可能性が低い場合)には、図示の例とは異なる適合率(例えば、「電球がほしい」と「年休がほしい」の適合率を逆にするなど)が設定されてもよい。 For example, in the example of FIG. 10, when the voice data I3 has the position information corresponding to the user's home living room, the text including the execution intention of the task "I want a light bulb" rather than "I want an annual holiday". Is likely to be recognized, so the precision rate of "I want a light bulb" is set high. On the other hand, when the voice data I3 has the location information corresponding to the user's office, there is a high possibility that the text including the execution intention of the task "I want an annual holiday" rather than "I want a light bulb" is recognized. In the case (when it is unlikely to accept the voice data I3 saying "I want a light bulb"), the matching rate different from the example shown in the figure (for example, the matching rate of "I want a light bulb" and "I want an annual holiday" is reversed. Etc.) may be set.
図11は、代表ベクトルを説明するための図である。 FIG. 11 is a diagram for explaining a representative vector.
選択部114は、例えば、タスクテキストを選択する際に、まず代表ベクトルと、抽出対象テキストの文ベクトルとを比較してクラスタを選択し、次に選択したクラスタの中から、好適なタスクテキストを選択する。
For example, when selecting a task text, the
[抽出対象テキストの指標値]
選択部114は、上述のような「タスクに近い」テキストであるか否かの判定要素として、tf-idf値を用いる。
[Index value of text to be extracted]
The
図12は、抽出対象テキストの指標値を説明するための図である。 FIG. 12 is a diagram for explaining an index value of the text to be extracted.
抽出対象テキストに含まれる一文S1(以下、「抽出対象テキストS1」と称する)が「来週/の/土曜/温泉/に/行きたい/ん/だけど/いい/温泉/は/ある/の」(/:単語の区切り位置)という14単語である場合、ベクトル変換部112は、頻出性計算部106および希少性計算部108による計算結果に基づいて、単語ごとのテキスト内での「重要度」の判定元情報となる文ベクトルを生成する。
One sentence S1 (hereinafter referred to as "extraction target text S1") included in the extraction target text is "next week / no / Saturday / hot spring / ni / want to go / n / but / good / hot spring / ha / aru / no" ( In the case of 14 words (/: word delimiter position), the
以下の説明において、コーパスI1に200,000文が含まれており、コーパスI1に単語「温泉」という単語を含む文が150文含まれ、コーパスI1に単語「の」を含む文が30,000文含まれるものとして説明する。 In the following description, corpus I1 contains 200,000 sentences, corpus I1 contains 150 sentences containing the word "hot spring", and corpus I1 contains 30,000 sentences containing the word "no". Explain as if the sentence is included.
なお、図12の例において、抽出対象テキストS1は「被解析文」の一例である。また、抽出対象テキストS1に含まれる二重下線を引いた単語「温泉」は「第1ワード」の一例である。また、抽出対象テキストS1に含まれる下線を引いた単語「の」や、抽出対象テキストS2に含まれる下線を引いた単語「の」は、それぞれ以下の説明において着目する「第1ワード」の一例である。 In the example of FIG. 12, the extraction target text S1 is an example of the “analyzed sentence”. Further, the double underlined word "hot spring" included in the extraction target text S1 is an example of the "first word". Further, the underlined word "no" included in the extraction target text S1 and the underlined word "no" included in the extraction target text S2 are examples of the "first word" to be focused on in the following description. Is.
また、タスクテキストS3およびタスクテキストS4は、図6のタスクテキストI2に含まれるタスクテキストの一例である。タスクテキストS3は、「着目文」の一例であり、タスクテキストS4は「着目文以外の文」の一例である。タスクテキストS3に含まれる二重下線を引いた単語「温泉」は「第2ワード」の一例である。また、タスクテキストS3およびタスクテキストS4に含まれる下線を引いた単語「の」は、「第2ワード」の一例である。 Further, the task text S3 and the task text S4 are examples of the task text included in the task text I2 of FIG. The task text S3 is an example of a "sentence of interest", and the task text S4 is an example of a "sentence other than the sentence of interest". The double underlined word "hot spring" included in the task text S3 is an example of the "second word". Further, the underlined word "no" included in the task text S3 and the task text S4 is an example of the "second word".
図12の例において、頻出性計算部106は、抽出対象テキストS1に含まれる単語「温泉」のtf値を、2/14(抽出対象テキストS1を構成する14単語のうち2単語を占める)であると計算する。同様に、頻出性計算部106は、抽出対象テキストS1に含まれる単語「の」のtf値を、2/14であると計算する。
In the example of FIG. 12, the
希少性計算部108は、抽出対象テキストS1に含まれる単語「温泉」のidf値を、log(200000/150)と計算する。同様に、希少性計算部108は、抽出対象テキストS1に含まれる単語「の」のidf値を、log(200000/30000)であると計算する。
The
次に、ベクトル変換部112は、抽出対象テキストS1に含まれる単語のそれぞれの頻出性計算部106および希少性計算部108による計算結果を乗算して、抽出対象テキストS1に含まれる単語のそれぞれのtf-idf値を導出する。
Next, the
例えば、ベクトル変換部112は、抽出対象テキストS1に含まれる単語「温泉」のtf-idf値を、2/14×log(200000/150)≒0.446であると導出する。同様に、ベクトル変換部112は、抽出対象テキストS1に含まれる単語「の」のtf-idf値を、2/14×log(200000/30000)≒0.118であると導出する。
For example, the
ベクトル変換部112により導出されたtf-idf値がより大きい値となる単語は、抽出対象テキストS1においてより「重要度」の高い単語である。すなわち、図12の抽出対象テキストS1において、ベクトル変換部112により導出されたtf-idf値に基づいて評価すると、単語「温泉」がより重要度の高い単語である。
A word having a larger tf-idf value derived by the
ベクトル変換部112は、抽出対象テキストに含まれる一文S2「来週/の/天気/の/情報」に対して抽出対象テキストS1と同様にtf-idf値を導出する。
The
また、ベクトル変換部112は、タスクテキストI2に含まれる一文S3「近く/の/温泉/を/調べて/ほしい」およびタスクテキストI2に含まれる一文S4「明日/の/東京/の/天気」のそれぞれに対して、タスクテキストに含まれる第2ワードのtf値およびidf値を導出して、tf-idf値を導出する。
Further, the
[文ベクトル(tf-idfベクトル)]
図13は、ベクトル変換部112により導出されたtf-idf値の一例を示す図である。
[Sentence vector (tf-idf vector)]
FIG. 13 is a diagram showing an example of the tf-idf value derived by the
ベクトル変換部112は、抽出対象テキストが「今日/の/天気/を/教えて」である場合、抽出対象テキストに含まれる単語のそれぞれのtf-idf値を導出する。ベクトル変換部112は、例えば、単語「今日」のtf-idf値は0.5であり、単語「の」のtf-idf値は0.02であると導出したとする。
When the extraction target text is "today / no / weather / tell / tell", the
図14は、文ベクトルのtf-idfベクトルを説明するための図である。 FIG. 14 is a diagram for explaining the tf-idf vector of the sentence vector.
ベクトル変換部112は、図12に示したように抽出対象テキストに含まれる単語のそれぞれのtf-idf値の導出結果を用いて、tf-idfベクトルを生成する。例えば、ベクトル変換部112がテキスト「今日/の/天気/を/教えて/が」からtf-idfベクトルを生成する場合、図14に示すような分散表現によるベクトルで表現することができる。なお、テキストに含まれる単語「が」は、抽出対象テキストに含まれない単語の一例である。抽出対象テキストに含まれない単語のtf-idfベクトル値は0である。
As shown in FIG. 12, the
同様に、ベクトル変換部112は、コーパスの解析結果120cに対してもtf-idfベクトル値を導出する処理を行っておく。そのようにすることによって、選択部114による選択処理においてtf-idfベクトル値を参照することが可能になるため、言語モデル120bの生成のために好適な文ベクトルを選択することができ、高精度の言語モデル120bの生成が言語モデル生成部116aにより実現される。
Similarly, the
[信頼度]
以下、信頼度導出部114aの信頼度導出処理についてより具体的に説明する。信頼度とは、音声認識結果の信頼性を評価する度合を0から1.0の間の数値で示すものであって、認識結果をどれだけ信頼してよいかを表す尺度である。
[Degree of reliability]
Hereinafter, the reliability derivation process of the
信頼度導出部114aは、例えば、テキストの信頼性が高い場合、すなわち、他の競合候補となるテキストが存在しない場合に信頼度を1.0に設定する。信頼度は、例えば、大語彙連続音声認識エンジンの検索結果として得られる単語の事後確率を用いて導出される。なお、信頼度の導出には、p*(tf-idfベクトル値の類似度)が用いられてもよい。
The
図15は、信頼度導出部114aによる信頼度導出処理を説明するための図である。
FIG. 15 is a diagram for explaining the reliability derivation process by the
信頼度導出部114aは、例えば、抽出対象テキストE1~E4のそれぞれの信頼度を導出する。選択部114は、例えば、信頼度導出部114aが導出した信頼度が閾値(例えば、0.8程度)以上である抽出対象テキストE1およびE4を優先的にタスクテキストとして選択する。なお、選択部114は、複数のタスクテキストが選択可能である場合、信頼度の高いタスクテキストを優先的に選択してもよい。
The
また、信頼度導出部114aは、信頼度を所定の周期で再設定してもよい。その場合、信頼度導出部114aは、抽出対象テキストE1~E4のうち、誤り(誤変換が含まれたり、タスクテキストに適合するものがなかったりするなどのこと)である可能性の高い抽出対象テキストE2およびE3に対して、より低い信頼度を設定することで、選択部114による処理精度を高めてもよい。
Further, the
選択部114は、信頼度導出部114aにより導出された信頼度に基づいて、被解析文に対応する文ベクトルを選択する。選択部114は、例えば、信頼度導出部114aにより導出された信頼度が閾値以上である解析結果から得られた被解析文を優先的に選択する。信頼度導出部114aにより信頼度が設定されることによって、誤った被認識文が言語モデル120bに反映されることを避けることができる。
The
また、選択部114は、信頼度導出部114aにより導出された信頼度が閾値以上である文ベクトルが見つかった場合、選択処理が途中であったとしても、その選択処理を中断することによって、言語モデル120bの生成処理に要する処理時間を短縮してもよい。
Further, when the
[テキストの意味内容の類似評価]
以下、テキストの意味内容の類似評価方法について説明する。
[Similar evaluation of the meaning and content of text]
Hereinafter, a method for evaluating the similarity of the meaning and content of the text will be described.
言語モデル演算部116は、例えば、抽出対象テキストの文ベクトル(以下、「ベクトルvi」と称する)と、各クラスタの代表ベクトルVとに対してコサイン類似度を求める数式に適用することで、テキストの意味内容の類似評価を行う。コサイン類似度を求める数式は、例えば、任意の文ベクトルv1と任意の文ベクトルv2の積を、文ベクトルv1の絶対値と文ベクトルv2の絶対値の積で除算する式であり、演算結果が1に近ければ文ベクトルv1と文ベクトルv2が類似していることを示す式である。
The language
言語モデル演算部116は、導出したコサイン類似度が閾値以上であれば、文ベクトルv1と文ベクトルv2とが類似である、すなわち、文ベクトルv1の導出元のテキストと文ベクトルv2の導出元のテキストが同一または類似の意味内容であると判定する。
If the derived cosine similarity is equal to or higher than the threshold value, the language
図16は、類似評価方法について説明するための図である。 FIG. 16 is a diagram for explaining a similarity evaluation method.
言語モデル演算部116は、例えば、抽出対象テキスト「今日の天気はどうかな」のベクトルviを導出する。言語モデル演算部116は、「今日の天気を教えて」、「明日の天気を教えて」、「天気は晴れか教えて」などの文ベクトルを含むクラスタC1の代表ベクトル(以下、「クラスタ代表ベクトルCV1」と称する)や、「音楽の音を小さくして」などの文ベクトルを含むクラスタC2の代表ベクトル(以下、「クラスタ代表ベクトルCV2」と称する)と、ベクトルviとをコサイン類似度を求める数式に適用してテキストの意味内容の類似度を評価する。
The language
なお、クラスタC1に含まれるタスクテキストのそれぞれは、「教師文」の一例である。 Each of the task texts included in the cluster C1 is an example of a "teacher sentence".
例えば、図示のように、ベクトルviとクラスタ代表ベクトルCV1の類似度が0.75であり、ベクトルviとクラスタ代表ベクトルCV2の類似度が0.1である場合、言語モデル演算部116は、より類似度の高いクラスタ代表ベクトルCV1の導出元であるクラスタC1が、抽出対象テキストのベクトルviとの同一または類似の意味内容であると判定する。
For example, as shown in the figure, when the similarity between the vector vi and the cluster representative vector CV1 is 0.75 and the similarity between the vector vi and the cluster representative vector CV2 is 0.1, the language
言語モデル演算部116は、さらに、クラスタC1に含まれるタスクテキストの中から、抽出対象テキストのベクトルviと同一または類似の意味内容であるタスクテキストを選択する。
Further, the language
言語モデル生成部116aは、言語モデル生成部116aにより選択されたタスク文の意味合いを、抽出対象テキストS1の意味合いとして対応付けたデータを生成するような言語モデル120bを生成する。
The language model generation unit 116a generates a
図示の例においては、例えば、抽出対象テキスト「今日の天気はどうかな」と、クラスタC1の中でタスクテキスト「今日の天気を教えて」がのベクトル値の類似性が高い(最も意味合いが近い)と判定されたとする。その場合、言語モデル120bは抽出対象テキスト「今日の天気はどうかな」が入力されると、上述のようなベクトルの類似性の評価の結果が推定に反映されて、抽出対象テキストがタスクテキスト「今日の天気を教えて」と同一または類似の意味合いであると推定する。
In the illustrated example, for example, the vector values of the extraction target text "How is the weather today" and the task text "Tell me the weather today" in the cluster C1 have high similarity (the closest meaning). ) Is determined. In that case, when the extraction target text "How is the weather today?" Is input in the
指令出力部118は、推定結果であるタスクテキスト「今日の天気を教えて」に基づく指令を端末装置20に出力する。これにより、端末装置20は、情報処理装置100の処理結果に基づいて、タスクテキスト「今日の天気を教えて」に基づく指令(例えば、ネットワークNWを介して今日の天気に関する情報を取得することなど)を実行する。
The
なお、テキストの意味内容の類似評価は、コサイン類似度以外の方法で評価されてもよく、レーベンシュタイン距離によるテキスト比較評価や、ジャロ・ウィンクラー距離によるテキスト比較評価などの評価が行われてもよい。 The similarity evaluation of the meaning and content of the text may be evaluated by a method other than the cosine similarity, and even if the text comparison evaluation based on the Levenshtein distance or the text comparison evaluation based on the Jaro-Winkler distance is performed. good.
[言語モデル生成処理フロー]
以下、情報処理装置100による言語モデル120bの生成処理について説明する。情報処理装置100は、例えば、コーパスI1の種別毎に言語モデル120bを生成する。また、情報処理装置100の管理者により、定期的に言語モデル演算用テキスト120hの変更・更新が行われてもよく、例えば、言語モデル演算用テキスト120hの変更・更新のタイミングで言語モデル120bの再生成が行われる。
[Language model generation process flow]
Hereinafter, the process of generating the
図17は、情報処理装置100による言語モデル120bの生成処理の流れの一例を示すフローチャートである。
FIG. 17 is a flowchart showing an example of the flow of the generation processing of the
まず、取得部102は、コーパスとして利用する文字情報(コーパスI1)を取得する(S100)。次に、解析部104は、コーパスI1を音響モデル120aに適用するなどにより実現される形態素解析等の解析方法により解析し、解析結果をコーパスの解析結果120cとして記憶部120に格納する(S102)。次に、W2V実行部110は、コーパスの解析結果120cに含まれる文字情報を構成する単語のそれぞれのベクトル値(単語ベクトル)を生成し(S104)、単語ベクトルリスト120fとして記憶部120に格納する(S106)。
First, the
次に、取得部102は、タスクテキストI2を取得する(S106)。次に、解析部104は、タスクテキストI2をコーパスI1と同様に解析し(S108)、解析結果をタスクテキストの解析結果120dとして記憶部120に格納する(S110)。
Next, the
次に、取得部102は、抽出対象テキストの元情報である音声データI3を取得する(S112)。次に、解析部104は、音声データI3をコーパスI1およびタスクテキストI2と同様に解析し、解析結果を抽出対象テキストの解析結果120eとして記憶部120に格納する(S114)。
Next, the
次に、ベクトル変換部112は、タスクテキストの解析結果120dと単語ベクトルリスト120fを参照して、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト120iとして記憶部120に格納する(S114)。次に、ベクトル変換部112は、抽出対象テキストの文ベクトルを生成する(S116)。
Next, the
次に、選択部114は、抽出対象テキストの文ベクトルおよびタスクテキストの文ベクトルに基づいて、言語モデル120bの元となる(言語モデル120bに反映させる)文ベクトルを選択する(S118)。次に、言語モデル生成部116aは、選択部114による選択結果に基づいて、言語モデル120bを生成する(S120)。以上、本フローチャートの処理の説明を終了する。
Next, the
[音声認識処理]
図18は、情報処理装置100による音声認識処理の流れの一例を示すフローチャートである。
[Voice recognition processing]
FIG. 18 is a flowchart showing an example of the flow of voice recognition processing by the
まず、取得部102は、端末装置20から音声データI2を取得する(S200)。次に、解析部104は、取得部102により出力された音声データI2を音響モデル120aに適用し、抽出対象テキストを生成する(S202)。
First, the
次に、言語モデル演算部116は、解析部104により出力された抽出対象テキストを言語モデル120bに適用する(S204)。次に、選択部114は、言語モデル演算部116により出力された適用結果から、好適候補を選択する(S206)。
Next, the language
次に、言語モデル生成部116aは、好適候補に基づいて出力情報を生成する(S208)。次に、指令出力部118は、出力情報を端末装置20等に出力する(S210)。以上、本フローチャートの処理の説明を終了する。
Next, the language model generation unit 116a generates output information based on suitable candidates (S208). Next, the
以上、説明した実施形態の情報処理装置100によれば、音声データを取得する取得部102と、取得部102により取得された音声データを解析してテキストに変換する解析部104と、解析部104による解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、テキストに含まれ且つ第1ワードが含まれる被解析文(音声データI3)の中における第1ワードの頻出性と、ライブラリ情報に含まれる文に対する第1ワードの希少性とを評価した第1指標値である、tf値およびidf値(またはtf―idfベクトル)を導出して被解析文に対応付けることと、コーパスI1、タスクテキストI2および言語モデル演算用テキスト120hなどのライブラリ情報に含まれる複数の第2ワードのそれぞれについて、ライブラリ情報に含まれ且つ第2ワードが含まれる着目文の中における第2ワードの頻出性と、ライブラリ情報に含まれる着目文以外の文に対する第2ワードの希少性とを評価した第2指標値であるtf値およびidf値(またはtf―idfベクトル)を導出して、着目文に対応付けることとのうち少なくとも一方を行う頻出性計算部106および希少性計算部108と、解析部104により解析された文を分散表現によるベクトル値に変換するベクトル変換部112と、頻出性計算部106および希少性計算部108により導出された第1指標値または第2指標値のうち少なくとも一方と、ベクトル変換部112によるベクトル変換結果とに基づいて、被解析文または着目文から一部の文を選択する選択部114と、意味合いが既知であり且つ文ベクトルが求められている教師文のうち、選択部114により選択された選択文と文ベクトルが近い教師文の意味合いを、選択文の意味合いとして対応付けたデータを生成する言語モデル生成部116aと、を備えることにより、より効率的且つ高精度に音声認識処理を行うことができる。
According to the
〔変形例〕
言語モデル生成部116aの生成する言語モデル120bは、固定の単語に特化した言語モデルであってもよい。「固定の単語に特化」とは、例えば、入力される言語に必ず固定の単語(上述の例における「天気」や「温泉」、「野球」など)、または固定の単語と同一または類似の単語が含まれ、固定の単語に関する処理のみを想定することである。
[Modification example]
The
その場合、頻出性計算部106および希少性計算部108は、抽出対象テキストに基づいて言語モデルを生成する場合、第1ワードを固定して処理を行い、コーパスに基づいて言語モデルを生成する場合、第2ワードを固定して処理を行う。また、頻出性計算部106および希少性計算部108は、コーパスと抽出対象テキストの両方に基づいて言語モデルを生成する場合、第1ワードおよび第2ワードを同じワードに固定して処理を行う。これにより、例えば、単語「温泉」に特化した言語モデル120bや、単語「天気」に特化した言語モデル120bを生成することができる。
In that case, when the
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
20…端末装置、30…制御対象デバイス、40…サービスサーバ、100…情報処理装置、102…取得部、104…解析部、106…頻出性計算部、108…希少性計算部、110…W2V実行部、112…ベクトル変換部、114…選択部、114a…信頼度導出部、116…言語モデル演算部、116a…言語モデル生成部、118…指令出力部、120b…言語モデル 20 ... Terminal device, 30 ... Control target device, 40 ... Service server, 100 ... Information processing device, 102 ... Acquisition unit, 104 ... Analysis unit, 106 ... Frequent calculation unit, 108 ... Rarity calculation unit, 110 ... W2V execution Unit, 112 ... Vector conversion unit, 114 ... Selection unit, 114a ... Reliability derivation unit, 116 ... Language model calculation unit, 116a ... Language model generation unit, 118 ... Command output unit, 120b ... Language model
Claims (11)
前記音声データを解析してテキストに変換する解析部と、
前記解析部による解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行う指標値導出部と、
前記解析部により解析された文を分散表現によるベクトル値に変換するベクトル変換部と、
前記指標値導出部により導出された前記第1指標値と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文から一部の文を選択する選択部と、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、前記選択部により選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成する生成部と、
を備え、
前記指標値導出部は、前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択部は、前記指標値導出部により導出された前記第1指標値または第2指標値のうち少なくとも一方と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記指標値導出部は、
前記第1指標値のみ導出する場合、前記第1ワードを固定して処理を行い、
前記第2指標値のみ導出する場合、前記第2ワードを固定して処理を行い、
前記第1指標値および前記第2指標値を導出する場合、前記第1ワードおよび前記第2ワードを同じワードに固定して処理を行い、
前記生成部は、前記固定したワードごとに前記対応付けたデータを生成する、
情報処理装置。 The acquisition unit that acquires audio data,
An analysis unit that analyzes the voice data and converts it into text,
For each of the plurality of first words included in the text of the analysis result by the analysis unit, the frequency of the first word in the analyzed sentence included in the text and including the first word, and library information. An index value deriving unit that derives a first index value that evaluates the rarity of the first word with respect to the sentence included in the sentence and associates it with the analyzed sentence.
A vector conversion unit that converts the sentence analyzed by the analysis unit into a vector value by distributed representation, and
A selection unit that selects a part of the sentence to be analyzed based on the first index value derived by the index value derivation unit and the conversion result by the vector conversion unit.
Among the teacher sentences whose meanings are known and whose vector value is required, the data in which the meanings of the teacher sentences whose vector values are close to those of the selection sentences selected by the selection unit are associated with the meanings of the selection sentences. The generator to generate and
Equipped with
For each of the plurality of second words included in the library information, the index value deriving unit determines the frequency of the second word in the sentence of interest included in the library information and including the second word. A second index value that evaluates the rarity of the second word for a sentence other than the note of interest included in the library information is derived and associated with the sentence of interest.
The selection unit is the analyzed sentence or the attention sentence based on at least one of the first index value or the second index value derived by the index value derivation unit and the conversion result by the vector conversion unit. Select some sentences from
The index value derivation unit is
When deriving only the first index value, the first word is fixed and processed.
When deriving only the second index value, the second word is fixed and processed.
When deriving the first index value and the second index value, the first word and the second word are fixed to the same word for processing.
The generation unit generates the associated data for each fixed word.
Information processing equipment.
前記音声データを解析してテキストに変換する解析部と、
前記解析部による解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行う指標値導出部と、
前記解析部により解析された文を分散表現によるベクトル値に変換するベクトル変換部と、
前記指標値導出部により導出された前記第1指標値と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文から一部の文を選択する選択部と、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、前記選択部により選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成する生成部と、
を備え、
前記指標値導出部は、前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択部は、前記指標値導出部により導出された前記第1指標値または第2指標値のうち少なくとも一方と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記ベクトル変換部により変換されたベクトル値に基づいて、被認識文の意味合いを推定し、推定結果に基づく指令を出力する指令出力部を更に備え、
前記ベクトル変換部は、前記解析部による解析結果のテキストに含まれる被認識文を分散表現によるベクトル値に変換し、
前記指令出力部は、前記対応付けたデータに含まれる文とのベクトル値の類似性に基づいて、被認識文の意味合いを推定し、前記推定結果に基づく指令を出力し、
前記選択部は、前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
情報処理装置。 The acquisition unit that acquires audio data,
An analysis unit that analyzes the voice data and converts it into text,
For each of the plurality of first words included in the text of the analysis result by the analysis unit, the frequency of the first word in the analyzed sentence included in the text and including the first word, and library information. An index value deriving unit that derives a first index value that evaluates the rarity of the first word with respect to the sentence included in the sentence and associates it with the analyzed sentence.
A vector conversion unit that converts the sentence analyzed by the analysis unit into a vector value by distributed representation, and
A selection unit that selects a part of the sentence to be analyzed based on the first index value derived by the index value derivation unit and the conversion result by the vector conversion unit.
Among the teacher sentences whose meanings are known and whose vector value is required, the data in which the meanings of the teacher sentences whose vector values are close to those of the selection sentences selected by the selection unit are associated with the meanings of the selection sentences. The generator to generate and
Equipped with
For each of the plurality of second words included in the library information, the index value deriving unit determines the frequency of the second word in the sentence of interest included in the library information and including the second word. A second index value that evaluates the rarity of the second word for a sentence other than the note of interest included in the library information is derived and associated with the sentence of interest.
The selection unit is the analyzed sentence or the attention sentence based on at least one of the first index value or the second index value derived by the index value derivation unit and the conversion result by the vector conversion unit. Select some sentences from
A command output unit that estimates the meaning of the recognized sentence based on the vector value converted by the vector conversion unit and outputs a command based on the estimation result is further provided.
The vector conversion unit converts the recognized sentence included in the text of the analysis result by the analysis unit into a vector value by distributed representation.
The command output unit estimates the meaning of the recognized sentence based on the similarity of the vector value with the sentence included in the associated data, and outputs a command based on the estimation result.
The selection unit determines whether or not the voice data includes the user's task execution intention based on the position information given to the voice data.
Information processing equipment.
請求項1または2に記載の情報処理装置。 At least one of the first index value and the second index value is a tf-idf value.
The information processing apparatus according to claim 1 or 2 .
前記選択部は、前記信頼度に基づいて前記被解析文を選択する、
請求項1から3のうちいずれか1項に記載の情報処理装置。 Further equipped with a reliability derivation unit for deriving the reliability of the analysis result,
The selection unit selects the sentence to be analyzed based on the reliability.
The information processing apparatus according to any one of claims 1 to 3 .
請求項4に記載の情報処理装置。 The selection unit preferentially selects the analysis target sentence obtained from the analysis result whose reliability is equal to or higher than the threshold value.
The information processing apparatus according to claim 4 .
請求項5に記載の情報処理装置。 When the selected sentence selected from the analysis result whose reliability is equal to or higher than the threshold value, the selection unit ends the selection process.
The information processing apparatus according to claim 5 .
請求項2に記載の情報処理装置。 The selection unit changes the accuracy with which the corresponding task is selected according to the input environment of the voice data estimated based on the position information.
The information processing apparatus according to claim 2 .
音声データを取得し、
前記音声データを解析してテキストに変換し、
解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行い、
被解析文を分散表現によるベクトル値に変換し、
前記第1指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成し、
前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択する処理において、前記第1指標値または前記第2指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記第1指標値または前記第2指標値を導出する際に、
前記第1指標値のみ導出する場合、前記第1ワードを固定して処理を行い、
前記第2指標値のみ導出する場合、前記第2ワードを固定して処理を行い、
前記第1指標値および前記第2指標値を導出する場合、前記第1ワードおよび前記第2ワードを同じワードに固定して処理を行い、
前記固定したワードごとに前記対応付けたデータを生成する、
情報処理方法。 The computer
Get voice data,
The voice data is analyzed and converted into text, and then
For each of the plurality of first words included in the analysis result text, the frequency of the first word in the analyzed sentence included in the text and including the first word, and the sentence included in the library information. A first index value that evaluates the rarity of the first word is derived and associated with the analyzed sentence.
Convert the parsed sentence into a vector value by distributed representation,
Based on the first index value and the vector conversion result, a part of the sentences to be analyzed is selected.
Among the teacher sentences whose meanings are known and whose vector value is required, data is generated in which the meanings of the selected selection sentences and the teacher sentences whose vector values are close to each other are associated with the meanings of the selection sentences.
For each of the plurality of second words included in the library information, the frequency of the second word in the sentence of interest included in the library information and including the second word, and the frequency of the second word included in the library information. A second index value that evaluates the rarity of the second word for a sentence other than the sentence of interest is derived and associated with the sentence of interest.
In the selection process, a part of the sentence to be analyzed or the sentence of interest is selected based on at least one of the first index value or the second index value and the vector conversion result.
When deriving the first index value or the second index value,
When deriving only the first index value, the first word is fixed and processed.
When deriving only the second index value, the second word is fixed and processed.
When deriving the first index value and the second index value, the first word and the second word are fixed to the same word for processing.
Generate the associated data for each fixed word.
Information processing method.
音声データを取得し、
前記音声データを解析してテキストに変換し、
解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行い、
被解析文を分散表現によるベクトル値に変換し、
前記第1指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成し、
前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択する処理において、前記第1指標値または前記第2指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記変換されたベクトル値に基づいて、被認識文の意味合いを推定し、推定結果に基づく指令を出力し、
前記解析結果のテキストに含まれる被認識文を分散表現によるベクトル値に変換し、
前記対応付けたデータに含まれる文とのベクトル値の類似性に基づいて、被認識文の意味合いを推定し、前記推定結果に基づく指令を出力し、
前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
情報処理方法。 The computer
Get voice data,
The voice data is analyzed and converted into text, and then
For each of the plurality of first words included in the analysis result text, the frequency of the first word in the analyzed sentence included in the text and including the first word, and the sentence included in the library information. A first index value that evaluates the rarity of the first word is derived and associated with the analyzed sentence.
Convert the parsed sentence into a vector value by distributed representation,
Based on the first index value and the vector conversion result, a part of the sentences to be analyzed is selected.
Among the teacher sentences whose meanings are known and whose vector value is required, data is generated in which the meanings of the selected selection sentences and the teacher sentences whose vector values are close to each other are associated with the meanings of the selection sentences.
For each of the plurality of second words included in the library information, the frequency of the second word in the sentence of interest included in the library information and including the second word, and the frequency of the second word included in the library information. A second index value that evaluates the rarity of the second word for a sentence other than the sentence of interest is derived and associated with the sentence of interest.
In the selection process, a part of the sentence to be analyzed or the sentence of interest is selected based on at least one of the first index value or the second index value and the vector conversion result.
Based on the converted vector value, the meaning of the recognized sentence is estimated, and the command based on the estimation result is output.
The recognized sentence included in the text of the analysis result is converted into a vector value by distributed representation, and is converted into a vector value.
Based on the similarity of the vector value with the sentence included in the associated data, the meaning of the recognized sentence is estimated, and the command based on the estimation result is output.
Based on the position information given to the voice data, it is determined whether or not the voice data includes the execution intention of the user's task.
Information processing method.
音声データを取得し、
前記音声データを解析してテキストに変換し、
解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行い、
被解析文を分散表現によるベクトル値に変換し、
前記第1指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成し、
前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択する処理において、前記第1指標値または前記第2指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記第1指標値または前記第2指標値を導出する際に、
前記第1指標値のみ導出する場合、前記第1ワードを固定して処理を行い、
前記第2指標値のみ導出する場合、前記第2ワードを固定して処理を行い、
前記第1指標値および前記第2指標値を導出する場合、前記第1ワードおよび前記第2ワードを同じワードに固定して処理を行い、
前記固定したワードごとに前記対応付けたデータを生成する、
ことを行わせるプログラム。 On the computer
Get voice data,
The voice data is analyzed and converted into text, and then
For each of the plurality of first words included in the analysis result text, the frequency of the first word in the analyzed sentence included in the text and including the first word, and the sentence included in the library information. A first index value that evaluates the rarity of the first word is derived and associated with the analyzed sentence.
Convert the parsed sentence into a vector value by distributed representation,
Based on the first index value and the vector conversion result, a part of the sentences to be analyzed is selected.
Among the teacher sentences whose meanings are known and whose vector value is required, data is generated in which the meanings of the selected selection sentences and the teacher sentences whose vector values are close to each other are associated with the meanings of the selection sentences.
For each of the plurality of second words included in the library information, the frequency of the second word in the sentence of interest included in the library information and including the second word, and the frequency of the second word included in the library information. A second index value that evaluates the rarity of the second word for a sentence other than the sentence of interest is derived and associated with the sentence of interest.
In the selection process, a part of the sentence to be analyzed or the sentence of interest is selected based on at least one of the first index value or the second index value and the vector conversion result.
When deriving the first index value or the second index value,
When deriving only the first index value, the first word is fixed and processed.
When deriving only the second index value, the second word is fixed and processed.
When deriving the first index value and the second index value, the first word and the second word are fixed to the same word for processing.
Generate the associated data for each fixed word.
A program that lets you do things .
音声データを取得し、
前記音声データを解析してテキストに変換し、
解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行い、
被解析文を分散表現によるベクトル値に変換し、
前記第1指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成し、
前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択する処理において、前記第1指標値または前記第2指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記変換されたベクトル値に基づいて、被認識文の意味合いを推定し、推定結果に基づく指令を出力し、
前記解析結果のテキストに含まれる被認識文を分散表現によるベクトル値に変換し、
前記対応付けたデータに含まれる文とのベクトル値の類似性に基づいて、被認識文の意味合いを推定し、前記推定結果に基づく指令を出力し、
前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
ことを行わせるプログラム。 On the computer
Get voice data,
The voice data is analyzed and converted into text, and then
For each of the plurality of first words included in the analysis result text, the frequency of the first word in the analyzed sentence included in the text and including the first word, and the sentence included in the library information. A first index value that evaluates the rarity of the first word is derived and associated with the analyzed sentence.
Convert the parsed sentence into a vector value by distributed representation,
Based on the first index value and the vector conversion result, a part of the sentences to be analyzed is selected.
Among the teacher sentences whose meanings are known and whose vector value is required, data is generated in which the meanings of the selected selection sentences and the teacher sentences whose vector values are close to each other are associated with the meanings of the selection sentences.
For each of the plurality of second words included in the library information, the frequency of the second word in the sentence of interest included in the library information and including the second word, and the frequency of the second word included in the library information. A second index value that evaluates the rarity of the second word for a sentence other than the sentence of interest is derived and associated with the sentence of interest.
In the selection process, a part of the sentence to be analyzed or the sentence of interest is selected based on at least one of the first index value or the second index value and the vector conversion result.
Based on the converted vector value, the meaning of the recognized sentence is estimated, and the command based on the estimation result is output.
The recognized sentence included in the text of the analysis result is converted into a vector value by distributed representation, and is converted into a vector value.
Based on the similarity of the vector value with the sentence included in the associated data, the meaning of the recognized sentence is estimated, and the command based on the estimation result is output.
Based on the position information given to the voice data, it is determined whether or not the voice data includes the execution intention of the user's task.
A program that lets you do things .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019092572A JP7096199B2 (en) | 2019-05-16 | 2019-05-16 | Information processing equipment, information processing methods, and programs |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019092572A JP7096199B2 (en) | 2019-05-16 | 2019-05-16 | Information processing equipment, information processing methods, and programs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020187282A JP2020187282A (en) | 2020-11-19 |
JP7096199B2 true JP7096199B2 (en) | 2022-07-05 |
Family
ID=73222494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019092572A Active JP7096199B2 (en) | 2019-05-16 | 2019-05-16 | Information processing equipment, information processing methods, and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7096199B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560505A (en) * | 2020-12-09 | 2021-03-26 | 北京百度网讯科技有限公司 | Recognition method and device of conversation intention, electronic equipment and storage medium |
CN113763951B (en) * | 2021-08-24 | 2024-01-05 | 深圳市恒必达电子科技有限公司 | Intelligent watch capable of controlling intelligent home through voice and infrared |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010154397A (en) | 2008-12-26 | 2010-07-08 | Sony Corp | Data processor, data processing method, and program |
JP2010191223A (en) | 2009-02-18 | 2010-09-02 | Seiko Epson Corp | Speech recognition method, mobile terminal and program |
JP2016206487A (en) | 2015-04-24 | 2016-12-08 | 日本電信電話株式会社 | Voice recognition result shaping device, method and program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2996019B2 (en) * | 1992-07-22 | 1999-12-27 | 日本電気株式会社 | Voice recognition device |
-
2019
- 2019-05-16 JP JP2019092572A patent/JP7096199B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010154397A (en) | 2008-12-26 | 2010-07-08 | Sony Corp | Data processor, data processing method, and program |
JP2010191223A (en) | 2009-02-18 | 2010-09-02 | Seiko Epson Corp | Speech recognition method, mobile terminal and program |
JP2016206487A (en) | 2015-04-24 | 2016-12-08 | 日本電信電話株式会社 | Voice recognition result shaping device, method and program |
Also Published As
Publication number | Publication date |
---|---|
JP2020187282A (en) | 2020-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10192545B2 (en) | Language modeling based on spoken and unspeakable corpuses | |
KR102596446B1 (en) | Modality learning on mobile devices | |
JP5901001B1 (en) | Method and device for acoustic language model training | |
CN107430859B (en) | Mapping input to form fields | |
EP2863300B1 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
US9529898B2 (en) | Clustering classes in language modeling | |
US11797765B2 (en) | Language identification for text strings | |
KR101780760B1 (en) | Speech recognition using variable-length context | |
US11282524B2 (en) | Text-to-speech modeling | |
US8374865B1 (en) | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
JP2015094848A (en) | Information processor, information processing method and program | |
CN110415679B (en) | Voice error correction method, device, equipment and storage medium | |
JP6370962B1 (en) | Generating device, generating method, and generating program | |
US11532301B1 (en) | Natural language processing | |
CN114840671A (en) | Dialogue generation method, model training method, device, equipment and medium | |
JP7058574B2 (en) | Information processing equipment, information processing methods, and programs | |
JP7096199B2 (en) | Information processing equipment, information processing methods, and programs | |
US20180165275A1 (en) | Identification and Translation of Idioms | |
CN110852075B (en) | Voice transcription method and device capable of automatically adding punctuation marks and readable storage medium | |
CN111508497B (en) | Speech recognition method, device, electronic equipment and storage medium | |
JP6563350B2 (en) | Data classification apparatus, data classification method, and program | |
US11626107B1 (en) | Natural language processing | |
JP2015001695A (en) | Voice recognition device, and voice recognition method and program | |
WO2023245869A1 (en) | Speech recognition model training method and apparatus, electronic device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096199 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |