JP2020042131A - Information processor, information processing method and program - Google Patents

Information processor, information processing method and program Download PDF

Info

Publication number
JP2020042131A
JP2020042131A JP2018168724A JP2018168724A JP2020042131A JP 2020042131 A JP2020042131 A JP 2020042131A JP 2018168724 A JP2018168724 A JP 2018168724A JP 2018168724 A JP2018168724 A JP 2018168724A JP 2020042131 A JP2020042131 A JP 2020042131A
Authority
JP
Japan
Prior art keywords
text
unit
vector
input
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018168724A
Other languages
Japanese (ja)
Other versions
JP7058574B2 (en
Inventor
賢昭 佐藤
Takaaki Sato
賢昭 佐藤
純平 三宅
Junpei Miyake
純平 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LY Corp
Original Assignee
Z Holdings Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Z Holdings Corp filed Critical Z Holdings Corp
Priority to JP2018168724A priority Critical patent/JP7058574B2/en
Publication of JP2020042131A publication Critical patent/JP2020042131A/en
Application granted granted Critical
Publication of JP7058574B2 publication Critical patent/JP7058574B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide an information processor, an information processing method and a program, which can efficiently perform voice recognition processing.SOLUTION: An information processor comprises: an acquisition section for acquiring voice data; an analysis section for outputting one or more analysis results obtained by analyzing the voice data and converting it into a text; a vector conversion section for performing conversion into a vector value by distributed expression indicating a plurality of words included in an input text on the analysis result; and a selection section for selecting a highly possible analysis result where an input intention of the input text of a user uttering voice on the voice data is reflected from one or more analysis results on the basis of the vector value converted by the vector conversion section and a vector value of the known input text, to which the input intention corresponds and which is previously requested.SELECTED DRAWING: Figure 1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。   The present invention relates to an information processing device, an information processing method, and a program.

潜在語言語モデルを用いて音声認識を行う技術が知られている(特許文献1参照)。潜在語言語モデルとは、学習テキスト(コーパス)中の各単語に対する潜在語を考慮したモデルである。   A technology for performing speech recognition using a latent language model is known (see Patent Document 1). The latent word language model is a model that considers the latent word for each word in the learning text (corpus).

特許第5975938号公報Japanese Patent No. 5975938

しかしながら、従来の技術では、コーパスの各語に対して数万個ある潜在語候補の確率をそれぞれ求める必要があり、語彙が多い場合等では、処理負荷が高くなり、音声認識結果の出力に時間を要する可能性がある。   However, in the conventional technology, it is necessary to calculate the probabilities of tens of thousands of potential word candidates for each word of the corpus. When there are many vocabularies, the processing load increases, and the output of the speech recognition result takes time. May be required.

本発明は、このような事情を考慮してなされたものであり、より効率的に音声認識処理をすることができる情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。   SUMMARY An advantage of some aspects of the invention is to provide an information processing apparatus, an information processing method, and a program that can perform voice recognition processing more efficiently. .

本発明の一態様は、音声データを取得する取得部と、前記音声データを解析してテキストに変換した、1以上の解析結果を出力する解析部と、前記解析結果に係る前記入力テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換するベクトル変換部と、前記ベクトル変換部により変換されたベクトル値と、前記入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記1以上の解析結果から前記音声データに係る音声を発した利用者の入力テキストの入力意図が反映された可能性の高い前記解析結果を選択する選択部と、を備える情報処理装置である。   One embodiment of the present invention includes an acquisition unit that acquires audio data, an analysis unit that analyzes the audio data and converts the audio data into text, and outputs one or more analysis results, and includes the input text according to the analysis results. A vector conversion unit that converts each of the plurality of words into a vector value in a distributed representation indicating each of the words, a vector value converted by the vector conversion unit, and the input intention corresponding to a known input text, which is obtained in advance. Based on the known input text vector value and the one or more analysis results, select the analysis result that is highly likely to reflect the input intention of the input text of the user who has emitted the voice related to the voice data. And an information processing device comprising:

本発明の一態様によれば、より効率的に音声認識処理をすることができる。   According to one embodiment of the present invention, speech recognition processing can be performed more efficiently.

実施形態に係る情報処理装置100の使用環境の一例を示す図である。FIG. 3 is a diagram illustrating an example of a use environment of the information processing apparatus 100 according to the embodiment. 情報処理装置100の処理を模式的に示す図である。FIG. 3 is a diagram schematically illustrating processing of the information processing apparatus 100. 実施形態に係る情報処理装置100の構成図である。FIG. 1 is a configuration diagram of an information processing apparatus 100 according to an embodiment. W2V実行部106によるベクトル変換処理を説明するための図である。FIG. 7 is a diagram for explaining a vector conversion process by a W2V execution unit 106. 文ベクトルを説明するための図である。It is a figure for explaining a sentence vector. 選別部110による好適候補選別を模式的に示す図である。FIG. 4 is a diagram schematically illustrating suitable candidate selection by a selection unit. タスクテキストを説明するための図である。It is a figure for explaining a task text. 信頼度導出部110aによる信頼度導出処理を説明するための図である。It is a figure for explaining the reliability derivation processing by reliability derivation part 110a. タスクテキストベクトルリスト120gを模式的に示す図である。It is a figure showing typically task text vector list 120g. 代表ベクトルを説明するための図である。FIG. 9 is a diagram for describing a representative vector. 類似評価方法について説明するための図である。It is a figure for explaining a similar evaluation method. 言語モデル演算部112による、クラスタ選択を模式的に示す図である。FIG. 5 is a diagram schematically illustrating cluster selection by a language model calculation unit 112. 情報処理装置100による言語モデル生成処理の流れの一例を示すフローチャートである。9 is a flowchart illustrating an example of a flow of a language model generation process performed by the information processing apparatus 100. 情報処理装置100による音声認識処理の流れの一例を示すフローチャートである。5 is a flowchart illustrating an example of a flow of a voice recognition process performed by the information processing apparatus 100.

以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。   Hereinafter, embodiments of an information processing apparatus, an information processing method, and a program according to the present invention will be described with reference to the drawings.

[概要]
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、利用者の発した音声を収録した音声データを受信し、受信した入力データの音声認識処理を行い、認識の結果に基づいて種々の処理を行う装置である。種々の処理としては、音声を発した利用者の意図に沿ったIoT(Internet of Things)機器の制御を行うこと、利用者の質問に対して応答することなどがある。以下、利用者の意図する情報処理装置の動作をタスクと称する場合がある。なお音声データは、圧縮や暗号化などの処理が施されたものであってもよい。
[Overview]
The information processing device is realized by one or more processors. The information processing device is a device that receives voice data including voices uttered by a user, performs a voice recognition process on the received input data, and performs various processes based on a recognition result. Various processes include controlling an IoT (Internet of Things) device according to the intention of the user who emitted the voice, and responding to a user's question. Hereinafter, the operation of the information processing device intended by the user may be referred to as a task. Note that the audio data may have been subjected to processing such as compression and encryption.

図1は、実施形態に係る情報処理装置100の使用環境の一例を示す図である。図示する環境では、端末装置20、制御対象デバイス30、およびサービスサーバ40は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、インターネット、プロバイダ装置、無線基地局、専用回線などのうちの一部または全部を含む。図1に示す例では、制御対象デバイス30の数は、N(Nは、1以上の整数)個である。なお、本明細書では、制御対象デバイス30−1〜30−Nにおいて、共通の事項を説明する場合など、個々の制御対象デバイス30−1〜30−Nを区別しない場合には、単に制御対象デバイス30と呼ぶ。   FIG. 1 is a diagram illustrating an example of a use environment of the information processing apparatus 100 according to the embodiment. In the illustrated environment, the terminal device 20, the control target device 30, and the service server 40 communicate with each other via a network NW. The network NW includes, for example, some or all of a WAN (Wide Area Network), a LAN (Local Area Network), the Internet, a provider device, a wireless base station, a dedicated line, and the like. In the example illustrated in FIG. 1, the number of the control target devices 30 is N (N is an integer of 1 or more). In the present specification, when the control target devices 30-1 to 30-N do not distinguish the individual control target devices 30-1 to 30-N, for example, when describing common matters, the control target devices 30-1 to 30-N will simply Called device 30.

端末装置20は、利用者の音声入力を受け付ける装置である。端末装置20は、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータ、スマートスピーカ(AIスピーカ)等である。   The terminal device 20 is a device that receives a user's voice input. The terminal device 20 is a mobile phone such as a smartphone, a tablet terminal, a personal computer, a smart speaker (AI speaker), or the like.

制御対象デバイス30は、通信機能と、外部からの制御を受け付けるインターフェースとを備え、利用者により操作される端末装置20からのリクエストに応じて制御可能なIoT機器である。制御対象デバイス30は、例えば、テレビやラジオ、照明器具、冷蔵庫、電子レンジ、洗濯機、炊飯器、自走式掃除機、空調機器などである。   The control target device 30 is an IoT device that includes a communication function and an interface that receives external control, and is controllable in response to a request from the terminal device 20 operated by a user. The control target device 30 is, for example, a television, a radio, a lighting fixture, a refrigerator, a microwave oven, a washing machine, a rice cooker, a self-propelled cleaner, an air conditioner, and the like.

サービスサーバ40は、利用者により操作される端末装置20からのリクエストに対応するウェブページを提供するウェブサーバ装置、アプリケーションが起動された端末装置20と通信を行って各種情報の受け渡しを行ってコンテンツを提供するアプリケーションサーバ装置等である。   The service server 40 communicates with the web server device that provides a web page corresponding to a request from the terminal device 20 operated by the user, and with the terminal device 20 on which the application has been started, and exchanges various types of information to perform content transmission. And the like.

図2は、情報処理装置100の処理を模式的に示す図である。情報処理装置100は、利用者が端末装置20を介して入力された音声データを音響モデルに適用することで音素に変換し、音素に基づいて1以上の候補テキスト(音声データに含まれる音をテキスト化したもの)を生成し、さらに生成した候補テキストのうち既知のタスク特徴量との比較に基づいて選択した候補テキストを言語モデルに適用することで、好適候補を選択する。好適候補とは、候補テキストの中で利用者の意図が反映された可能性が高い好適な候補であると判定されたものである。   FIG. 2 is a diagram schematically illustrating the processing of the information processing apparatus 100. The information processing apparatus 100 converts voice data input by the user via the terminal device 20 into a phoneme by applying the voice data to a sound model, and converts one or more candidate texts (sounds included in the voice data into sounds) based on the phoneme. Then, a suitable candidate is selected by applying a candidate text selected based on a comparison with a known task feature amount among the generated candidate texts to a language model. Preferred candidates are those that are determined to be suitable candidates that have a high possibility of reflecting the user's intention in the candidate text.

音響モデルとは、周波数成分や時間変化を統計的に分析し、入力された音声データがどのような音素で構成されるか(何と言っているか)を判別するためのモデルである。音素とは、アルファベットや仮名などの言語の最小単位を特定するためのラベルであり、例えば、母音や子音等を含む。情報処理装置100は、音素を言語ルールに従って適宜、結合することで候補テキストを得る。   The acoustic model is a model for statistically analyzing a frequency component and a temporal change to determine what kind of phoneme the input voice data is composed of (what is said). A phoneme is a label for specifying a minimum unit of a language such as an alphabet or a kana, and includes, for example, vowels and consonants. The information processing apparatus 100 obtains candidate texts by appropriately combining phonemes according to language rules.

図2に示すように、音素変換の結果、生成した候補テキストが“kyonotenki”である場合、例えば、”k”や”t”は生成した候補テキストに含まれる音素を示すものである。音声認識処理が日本語を前提として行われる場合、候補テキストは、アルファベット表記で表されてもよいし、ひらがな表記またはカタカナ表記で表されてもよい。図2に示す例において、情報処理装置100は、受け付けた音声データに基づいて、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む候補テキストを生成する。   As shown in FIG. 2, when the candidate text generated as a result of phoneme conversion is “kyonotenki”, for example, “k” or “t” indicates a phoneme included in the generated candidate text. When the speech recognition process is performed on the premise of Japanese, the candidate text may be represented in alphabetical notation, hiragana or katakana notation. In the example illustrated in FIG. 2, the information processing apparatus 100 generates a candidate text including “kyonotenki”, “kyonotenkii”, and “kyonodenki” based on the received voice data.

情報処理装置100は、図2に示す例において、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む変換候補のそれぞれに対して形態素解析を行う。形態素解析とは、候補テキストを構成する単語の区切りを決定し、区切られたそれぞれの単語の例えば品詞を導出する処理である。形態素解析は、例えば、MeCABなどの形態素解析エンジンを利用して行われる。情報処理装置100は、例えば、候補テキスト“kyonotenki”を解析した結果、「今日(kyo)」、「の(no)」、「天気(tenki)」の3つの単語を導出する。同様に、候補テキスト“kyonotenkii”を解析した結果、「今日(kyo)」、「の(no) 」、「テンキー(tenkii)」を、候補テキスト“kyonodenki”を解析した結果、「京(kyo)」、「の(no) 」、「電気(denki)」を生成する。   The information processing apparatus 100 performs morphological analysis on each of the conversion candidates including “kyonotenki”, “kyonotenkii”, and “kyonodenki” in the example shown in FIG. The morphological analysis is a process of determining the delimitation of the words constituting the candidate text and deriving, for example, the part of speech of each delimited word. The morphological analysis is performed using a morphological analysis engine such as MeCAB. For example, as a result of analyzing the candidate text “kyonotenki”, the information processing apparatus 100 derives three words “today (kyo)”, “no (no)”, and “weather (tenki)”. Similarly, as a result of analyzing the candidate text “kyonotenkii”, “Today (kyo)”, “no (no)”, and “tenkey (tenkii)” are analyzed, and as a result of analyzing the candidate text “kyonodenki”, “Kyo (kyo)” is obtained. , "(No)", and "electricity (denki)".

情報処理装置100は、1以上の候補テキストのそれぞれから生成した解析結果を評価する。そして、評価値に基づいて1つの候補テキストを選択し、より具体的に、情報処理装置100は、候補テキストの解析結果の、既知のタスク音声から得られた特徴量との適合率を評価し、利用者の意図に沿ったものと推定される好適候補を選択する。そして、情報処理装置100は、意図に対応する出力情報を生成するタスクに関する命令を出力する。適合率については後述する。   The information processing device 100 evaluates an analysis result generated from each of the one or more candidate texts. Then, one candidate text is selected based on the evaluation value, and more specifically, the information processing apparatus 100 evaluates the matching rate of the analysis result of the candidate text with the feature amount obtained from the known task voice. Then, a suitable candidate estimated to be in line with the user's intention is selected. Then, the information processing apparatus 100 outputs an instruction related to a task for generating output information corresponding to the intention. The precision will be described later.

[構成]
図3は、情報処理装置100の構成図である。情報処理装置100は、例えば、取得部102と、解析部104と、W2V(Word2Vec)実行部106と、テキストベクトル生成部108と、選別部110と、言語モデル演算部112と、選択部114と、出力情報生成部116と、出力部118と、記憶部120とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め情報処理装置100のHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで情報処理装置100のHDDやフラッシュメモリにインストールされてもよい。
[Constitution]
FIG. 3 is a configuration diagram of the information processing apparatus 100. The information processing apparatus 100 includes, for example, an acquisition unit 102, an analysis unit 104, a W2V (Word2Vec) execution unit 106, a text vector generation unit 108, a selection unit 110, a language model operation unit 112, and a selection unit 114. , An output information generation unit 116, an output unit 118, and a storage unit 120. These components are realized, for example, by a hardware processor such as a CPU (Central Processing Unit) executing a program (software). Some or all of these constituent elements are hardware (circuit) such as an LSI (Large Scale Integration), an ASIC (Application Specific Integrated Circuit), an FPGA (Field-Programmable Gate Array), and a GPU (Graphics Processing Unit). (Including a circuitry), or may be realized by cooperation of software and hardware. The program may be stored in advance in a storage device (a storage device having a non-transitory storage medium) such as an HDD or a flash memory of the information processing device 100, or may be a removable storage device such as a DVD or a CD-ROM. The information may be stored in a medium (a non-transitory storage medium), and may be installed in the HDD or the flash memory of the information processing apparatus 100 by attaching the storage medium to a drive device.

記憶部120は、例えば、RAM(Random Access Memory)、レジスタ、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)などにより実現される。記憶部120は、例えば、音響モデル120a、言語モデル120b、コーパスの解析結果120c、タスクテキストの解析結果120d、候補テキストの解析結果120e、単語ベクトルリスト120f、タスクテキストベクトルリスト120g、言語モデル演算用テキスト120hなどの情報を記憶する。   The storage unit 120 is realized by, for example, a random access memory (RAM), a register, a flash memory, an electrically erasable programmable read only memory (EEPROM), and the like. The storage unit 120 includes, for example, an acoustic model 120a, a language model 120b, a corpus analysis result 120c, a task text analysis result 120d, a candidate text analysis result 120e, a word vector list 120f, a task text vector list 120g, and a language model calculation. Information such as the text 120h is stored.

取得部102は、情報処理装置100が音声認識処理を行う上でコーパスとして利用する文字情報(例えば、ニュース等の記事データや、SNS(Social Networking Service)の投稿データ)を取得し、解析部104に出力する。なお、コーパスとして利用する文字情報は、口語形式のテキスト(例えば、SNSにおける投稿履歴や、自動応答装置における利用者と装置の会話履歴、現実の会話をテキストに直したもの、自装置の音声処理履歴など)が含まれることが望ましい。また、取得部102は、情報処理装置100の管理者が設定した定型タスクを示す文字情報のデータセット(以下、タスクテキスト)を取得し、解析部104に出力する。   The acquisition unit 102 acquires character information (for example, article data such as news, and posting data of SNS (Social Networking Service)) used as a corpus when the information processing apparatus 100 performs the voice recognition process, and analyzes the information. Output to The character information used as the corpus is a colloquial text (for example, a posting history in an SNS, a conversation history between a user and a device in an automatic answering device, a text obtained by converting a real conversation into a text, a voice processing of the own device). History, etc.). Further, the acquiring unit 102 acquires a data set of character information indicating a fixed task set by the administrator of the information processing apparatus 100 (hereinafter, task text) and outputs the data set to the analyzing unit 104.

また、取得部102は、端末装置20の利用者により入力された音声データを取得し、解析部104に出力する。取得部102が取得した音声データに利用者の位置情報が付与される場合、その位置情報は、候補テキストと併せて管理されるものとする。   Further, the acquisition unit 102 acquires audio data input by a user of the terminal device 20 and outputs the audio data to the analysis unit 104. When the position information of the user is added to the audio data obtained by the obtaining unit 102, the position information is managed together with the candidate text.

解析部104は、取得部102により出力されたコーパスとして利用する文字情報を所定の解析方法で解析する。所定の解析方法とは、例えば、形態素解析である。形態素解析とは、文字情報を名詞、動詞、助詞等の品詞の単位で分解することである。解析部104は、解析結果をコーパスの解析結果120cとして記憶部120に記憶させる。また、解析部104は、取得部102により出力されたタスクテキストを解析し、解析結果をタスクテキストの解析結果120dとして記憶部120に記憶させる。   The analysis unit 104 analyzes the character information used as the corpus output by the acquisition unit 102 using a predetermined analysis method. The predetermined analysis method is, for example, morphological analysis. Morphological analysis is to decompose character information into units of parts of speech such as nouns, verbs, and particles. The analysis unit 104 causes the storage unit 120 to store the analysis result as a corpus analysis result 120c. The analysis unit 104 also analyzes the task text output by the acquisition unit 102, and stores the analysis result in the storage unit 120 as a task text analysis result 120d.

また、解析部104は、取得部102により出力された音声データを音響モデル120aに適用して1以上の候補テキストを生成した後に、それぞれの候補テキストに対して形態素解析等の解析処理を行う。また、解析部104は、解析結果を候補テキストの解析結果120eとして記憶部120に記憶させる。   The analysis unit 104 applies the audio data output by the acquisition unit 102 to the acoustic model 120a to generate one or more candidate texts, and then performs an analysis process such as a morphological analysis on each candidate text. Further, the analysis unit 104 causes the storage unit 120 to store the analysis result as the analysis result 120e of the candidate text.

図4は、W2V実行部106によるベクトル変換処理を説明するための図である。W2V実行部106は、例えば、コーパスの解析結果120cに含まれる各単語の意味をベクトル表現化(分散表現化)して単語ベクトルを生成する。図4の例では、W2V実行部106は、「ボリューム」の単語ベクトルを生成している。W2V実行部106は、「音」と「ボリューム」、「ミュージック」と「音楽」のように意味の近い単語同士で単語ベクトル間の距離(コサイン類似度)が近くなるように、単語ベクトルを生成する。W2V実行部106は、生成したベクトル値を記憶部に単語ベクトルリスト120fとして記憶部120に記憶させる。W2V実行部106は、「ベクトル変換部」の一例である。   FIG. 4 is a diagram for explaining the vector conversion process performed by the W2V execution unit 106. The W2V execution unit 106 generates a word vector by, for example, expressing the meaning of each word included in the analysis result 120c of the corpus by vector expression (distributed expression). In the example of FIG. 4, the W2V execution unit 106 generates a word vector of “volume”. The W2V execution unit 106 generates a word vector such that words having similar meanings such as “sound” and “volume” and “music” and “music” have a short distance between word vectors (cosine similarity). I do. The W2V execution unit 106 stores the generated vector value in the storage unit 120 as the word vector list 120f in the storage unit. The W2V execution unit 106 is an example of a “vector conversion unit”.

また、W2V実行部106は、単語ベクトルリスト120fに記憶されていない単語がタスクテキストまたは候補テキストに含まれる場合、タスクテキストの解析結果120d、または候補テキストの解析結果120eを、例えばコーパスに追加することで同様に解析し、それらのベクトル値を生成してもよい。このベクトル値は、単語ベクトルリスト120fに記憶されてもよいし、記憶されなくてもよい。   When a word that is not stored in the word vector list 120f is included in the task text or the candidate text, the W2V execution unit 106 adds the analysis result 120d of the task text or the analysis result 120e of the candidate text to, for example, a corpus. The analysis may be performed in the same manner to generate the vector values. This vector value may or may not be stored in the word vector list 120f.

図3に戻り、テキストベクトル生成部108は、タスクテキストの解析結果120d、候補テキストの解析結果120e、および単語ベクトルリスト120fのベクトル値を用いて、候補テキストの文単位のベクトル値(以下、文ベクトル)を生成する。テキストベクトル生成部108は、生成した文ベクトルを選別部110に出力する。   Referring back to FIG. 3, the text vector generation unit 108 uses the analysis result 120d of the task text, the analysis result 120e of the candidate text, and the vector value of the word vector list 120f to set a vector value (hereinafter, sentence) of the candidate text. Vector). The text vector generation unit 108 outputs the generated sentence vector to the selection unit 110.

図5は、文ベクトルについて説明するための図である。テキストベクトル生成部108は、例えば、「ボリュームを下げて」の文ベクトルを生成する場合、「ボリューム」、「を」、および「下げて」の単語ベクトルに所定の演算を行うことで(例えば、それぞれの単語ベクトルを加算することで)、文ベクトルを生成する。この結果、文を構成する単語の単語ベクトルを合計した文ベクトルについても同様に、「音楽の音を小さくして」と「ボリュームを下げて」のように意味が近い文の文ベクトル同士の距離は近くなる。   FIG. 5 is a diagram for explaining a sentence vector. For example, when generating the sentence vector of “decrease volume”, the text vector generation unit 108 performs a predetermined operation on the word vectors of “volume”, “「 ”, and“ decrease ”(for example, By adding each word vector), a sentence vector is generated. As a result, similarly, the sentence vector obtained by summing the word vectors of the words constituting the sentence similarly has the distance between the sentence vectors of the sentences having similar meanings such as “lower the music sound” and “lower the volume”. Becomes closer.

また、テキストベクトル生成部108は、タスクテキストの解析結果120dおよびW2V実行部106により出力された単語ベクトルを用いて、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト120gとして記憶部120に記憶させる。タスクテキストは、利用者の意図を含んでいることが既知のテキストであり、例えば、情報処理装置100の管理者によってあらかじめ設定される。   The text vector generation unit 108 generates a task text sentence vector using the task text analysis result 120d and the word vector output by the W2V execution unit 106, and stores the generated text vector in the storage unit 120 as a task text vector list 120g. Let it. The task text is a text that is known to include the intention of the user, and is set in advance by, for example, an administrator of the information processing apparatus 100.

図3に戻り、選別部110は、候補テキストの文ベクトル、タスクテキストの文ベクトル、および言語モデル演算用テキスト120hの文ベクトルに基づいて、言語モデル120bの元となる文ベクトルを選別する。選別部110は、選別結果を言語モデル演算部112に出力する。言語モデル演算用テキスト120hとは、例えば、情報処理装置100の管理者が想定するタスクテキストの文ベクトルや、過去の情報処理装置100の音声認識処理履歴として保持する文ベクトルである。   Referring back to FIG. 3, the selection unit 110 selects a sentence vector that is a source of the language model 120b based on the sentence vector of the candidate text, the sentence vector of the task text, and the sentence vector of the language model calculation text 120h. The selection unit 110 outputs the selection result to the language model calculation unit 112. The language model calculation text 120h is, for example, a sentence vector of a task text assumed by an administrator of the information processing apparatus 100 or a sentence vector stored as a past speech recognition processing history of the information processing apparatus 100.

選別部110は、例えば、信頼度導出部110aを備える。信頼度導出部110aによる優先度導出処理については後述する。   The selection unit 110 includes, for example, a reliability derivation unit 110a. The priority deriving process by the reliability deriving unit 110a will be described later.

言語モデル演算部112は、例えば、言語モデル生成部112aを備える。言語モデル生成部112aは、選別部110により出力された選別結果を適用した言語モデルを生成し、コーパス毎の言語モデル120bとして記憶部120に記憶させる。言語モデル生成部112aは、例えば、情報処理装置100の管理者があらかじめ設定した言語モデル演算用テキスト120h、および選別部110により選択された変換候補に基づいて言語モデル120bを生成する。   The language model calculation unit 112 includes, for example, a language model generation unit 112a. The language model generation unit 112a generates a language model to which the selection result output by the selection unit 110 is applied, and stores the language model in the storage unit 120 as a language model 120b for each corpus. The language model generation unit 112a generates the language model 120b based on, for example, the language model calculation text 120h preset by the administrator of the information processing apparatus 100 and the conversion candidates selected by the selection unit 110.

また、言語モデル演算部112は、選別部110により出力された候補テキストを言語モデル120bに適用し、適用結果を選択部114に出力する。   In addition, the language model calculation unit 112 applies the candidate text output by the selection unit 110 to the language model 120b, and outputs an application result to the selection unit 114.

選択部114は、言語モデル演算部112により出力された候補テキストを評価値に基づいて評価することで、利用者の入力意図が反映された可能性の高い好適候補を選択する。選択部114は、選択結果である好適候補を出力情報生成部116に出力する。   The selection unit 114 evaluates the candidate text output by the language model calculation unit 112 based on the evaluation value, and selects a suitable candidate that is highly likely to reflect the user's input intention. The selection unit 114 outputs a suitable candidate as a selection result to the output information generation unit 116.

なお、選択部114は、候補テキストに位置情報が付与される場合、その位置情報から利用者の入力環境を推定し、候補テキスト利用者のタスクの実行意図を含むものであるか否かを評価し、評価結果に基づいて候補テキストを選択してもよい。例えば、選択部114は、候補テキストの位置情報から利用者が自宅にいることが推定される場合には、自宅で利用する制御対象デバイス30に関するタスクの適合率を高く設定し、同時に職場で利用する制御対象デバイス30に関するタスクの適合率を低く設定することで対応するタスクが選択される確度を変更してよい。   When position information is added to the candidate text, the selection unit 114 estimates the input environment of the user from the position information and evaluates whether or not the candidate text user includes a task execution intention of the user, The candidate text may be selected based on the evaluation result. For example, when it is presumed that the user is at home from the position information of the candidate text, the selection unit 114 sets a high relevance rate of the task related to the control target device 30 used at home, and simultaneously uses the task at work. The accuracy of selecting the corresponding task may be changed by setting the relevance rate of the task related to the control target device 30 to be low.

図6は、選択部114による好適候補選別を模式的に示す図である。言語モデルとは、候補テキストから、好適候補を生成するためのモデルである。選別部110は、例えば、候補ベクトルの文ベクトルとタスクテキストの文ベクトルの類似度から、タスクテキストに近いものほど高い評価値を与え、更に、言語モデルを用いて、単語の並びに関するスコアが高いものほど高い評価値を与える、これらの評価値を総合評価することで、好適候補を選択する。なお、言語モデルは、利用者の周辺環境を加味して評価を行うものでもよい。   FIG. 6 is a diagram schematically illustrating selection of a suitable candidate by the selection unit 114. The language model is a model for generating a suitable candidate from a candidate text. For example, based on the similarity between the sentence vector of the candidate vector and the sentence vector of the task text, the selection unit 110 gives a higher evaluation value to a task text that is closer to the task text. A suitable candidate is selected by comprehensively evaluating these evaluation values that give a higher evaluation value to the object. It should be noted that the language model may be one that performs evaluation taking into account the surrounding environment of the user.

図3に戻り、出力情報生成部116は、選択部114により出力された好適候補に基づいて、利用者の意図する出力情報を生成し、出力部118に出力する。出力情報には、出力先の装置を特定する情報、出力先の装置に対する処理リクエストなどが含まれる。   Returning to FIG. 3, the output information generation unit 116 generates output information intended by the user based on the suitable candidates output by the selection unit 114, and outputs the output information to the output unit 118. The output information includes information for specifying the output destination device, a processing request for the output destination device, and the like.

出力情報生成部116は、例えば、好適候補が「今日の天気を教えて」である場合、サービスサーバ40の提供する天気予報のウェブサイトに対してリクエストを送信し、端末装置20に送信するためのリクエストの応答の一部または全部を含む情報を出力情報とする。また、出力情報生成部116は、例えば、好適候補が「音楽の音量を下げて」である場合、音楽再生中の制御対象デバイス30を特定し、音量を下げる命令を出力する。なお、出力情報生成部116は、出力先が制御対象デバイス30の出力情報を生成する場合、端末装置20に制御対象デバイス30に対して出力情報を出力したことを通知する出力情報を併せて生成してもよい。   The output information generation unit 116 transmits a request to the weather forecast website provided by the service server 40 and transmits the request to the terminal device 20 when the preferred candidate is “tell me today's weather”, for example. The information including a part or the whole of the response to the request is output information. In addition, for example, when the suitable candidate is “reduce the volume of music”, the output information generation unit 116 specifies the control target device 30 that is playing back the music, and outputs a command to reduce the volume. When the output destination generates the output information of the control target device 30, the output information generation unit 116 also generates the output information that notifies the terminal device 20 that the output information has been output to the control target device 30. May be.

出力部118は、出力情報生成部116により出力された出力情報を、端末装置20または制御対象デバイス30に出力する。   The output unit 118 outputs the output information output by the output information generation unit 116 to the terminal device 20 or the control target device 30.

[タスクテキスト]
以下、タスクテキストについて説明する。情報処理装置100の管理者は、例えば、端末装置20の過去の音声入力履歴や、情報処理装置100の処理履歴に基づいて、選択部114が評価基準とするタスクテキストを抽出する。
[Task text]
Hereinafter, the task text will be described. The administrator of the information processing apparatus 100 extracts, for example, a task text used as an evaluation criterion by the selection unit 114 based on a past voice input history of the terminal apparatus 20 and a processing history of the information processing apparatus 100.

図7は、タスクテキストを説明するための図である。図7の左図は、端末装置20の過去の音声入力履歴の音声認識結果R1〜R7を示す。音声認識結果には、端末装置20の利用者の入力意図が反映されたものと、利用者には入力意図はないが音声認識されたものとが含まれる。情報処理装置100の管理者は、例えば、音声認識結果のR4をタスクに近いテキストであると判別した場合、図7の右上図に示すように優先度を高く設定する。タスクに近いとは、利用者の入力意図が反映された可能性が高いテキストが含まれることである。また、情報処理装置100の管理者は、音声認識結果のR6をタスクから遠いテキストであると判別した場合、図7の右下図に示すように優先度を低く設定する。   FIG. 7 is a diagram for explaining the task text. The left diagram of FIG. 7 shows the speech recognition results R1 to R7 of the past speech input history of the terminal device 20. The speech recognition result includes a result in which the input intention of the user of the terminal device 20 is reflected and a result in which the user has no input intention but is speech-recognized. For example, when the manager of the information processing apparatus 100 determines that the speech recognition result R4 is a text close to the task, the manager sets the priority to be higher as shown in the upper right diagram of FIG. Close to a task includes text that is highly likely to reflect the user's input intention. When the manager of the information processing apparatus 100 determines that the speech recognition result R6 is a text far from the task, the manager sets the priority lower as shown in the lower right diagram of FIG.

また、情報処理装置100の管理者は、R1、R2、R3、R5、およびR7についてもタスクから遠いテキストであると判別し、優先度を低く設定する。タスクテキストの優先度は、例えば、タスクテキストの文ベクトル値とともに、タスクテキストベクトルリスト120gに登録される。   Further, the administrator of the information processing apparatus 100 determines that R1, R2, R3, R5, and R7 are texts far from the task, and sets a low priority. The priority of the task text is registered in the task text vector list 120g together with the sentence vector value of the task text, for example.

[言語モデル生成処理フロー]
以下、情報処理装置100による言語モデル120bの生成処理について説明する。情報処理装置100は、例えば、コーパスの種別毎に言語モデル120bを生成する。また、情報処理装置100の管理者により、定期的に言語モデル演算用テキスト120hの変更・更新が行われてもよく、例えば、そのタイミングで言語モデルの再生成が行われる。
[Language model generation processing flow]
Hereinafter, generation processing of the language model 120b by the information processing apparatus 100 will be described. The information processing apparatus 100 generates the language model 120b for each corpus type, for example. Further, the administrator of the information processing apparatus 100 may periodically change / update the language model calculation text 120h. For example, the language model is regenerated at that timing.

図8は、情報処理装置100による言語モデル120bの生成処理の流れの一例を示すフローチャートである。   FIG. 8 is a flowchart illustrating an example of the flow of a process of generating the language model 120b by the information processing apparatus 100.

まず、取得部102は、コーパスとして利用する文字情報を取得する(S100)。次に、解析部104は、コーパスとして利用する文字情報を解析し、解析結果をコーパスの解析結果120cとして記憶部120に記憶させる(S102)。次に、W2V実行部106は、コーパスの解析結果120cに含まれる単語のベクトル値を生成し、単語ベクトルリスト120fとして記憶部120に記憶させる(S104)。   First, the acquiring unit 102 acquires character information used as a corpus (S100). Next, the analysis unit 104 analyzes the character information used as the corpus, and stores the analysis result in the storage unit 120 as the corpus analysis result 120c (S102). Next, the W2V execution unit 106 generates a vector value of the word included in the analysis result 120c of the corpus, and stores the vector value in the storage unit 120 as the word vector list 120f (S104).

次に、取得部102は、タスクテキストを取得する(S106)。次に、解析部104は、タスクテキストを解析し、解析結果をタスクテキストの解析結果120dとして記憶部120に記憶させる(S108)。   Next, the acquisition unit 102 acquires a task text (S106). Next, the analysis unit 104 analyzes the task text, and stores the analysis result in the storage unit 120 as a task text analysis result 120d (S108).

次に、取得部102は、候補テキストを取得する(S110)。次に、解析部104は、候補テキストを解析し、解析結果を候補テキストの解析結果120eとして記憶部120に記憶させる(S112)。   Next, the acquisition unit 102 acquires a candidate text (S110). Next, the analysis unit 104 analyzes the candidate text, and stores the analysis result in the storage unit 120 as the analysis result 120e of the candidate text (S112).

次に、テキストベクトル生成部108は、タスクテキストの解析結果120dと単語ベクトルリスト120fを参照して、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト120gとして記憶部120に記憶させる(S114)。   Next, the text vector generation unit 108 generates a sentence vector of the task text with reference to the analysis result 120d of the task text and the word vector list 120f, and causes the storage unit 120 to store the sentence vector as the task text vector list 120g (S114). .

次に、選別部110は、候補テキストを選別し、言語モデル生成部112aに出力する(S116)。   Next, the selection unit 110 selects candidate texts and outputs the candidate texts to the language model generation unit 112a (S116).

次に、言語モデル生成部112aは、選別部110により出力された候補テキストと、言語モデル演算用テキスト120hとに基づいて、言語モデル120bを生成する(S120)。以上、本フローチャートの処理の説明を終了する。   Next, the language model generation unit 112a generates a language model 120b based on the candidate text output by the selection unit 110 and the language model calculation text 120h (S120). This is the end of the description of the processing in this flowchart.

[信頼度]
以下、信頼度導出部110aの信頼度導出処理についてより具体的に説明する。信頼度とは、音声認識結果の信頼性を評価する度合を0から1.0の間の数値で示すものである。信頼度導出部110aは、例えば、テキストの信頼性が高い場合、すなわち、他の競合候補となるテキストが存在しない場合に信頼度を1.0に設定する。信頼度は、例えば、大語彙連続音声認識エンジンの検索結果として得られる単語の事後確率を用いて導出される。
[Degree of reliability]
Hereinafter, the reliability deriving process of the reliability deriving unit 110a will be described more specifically. The reliability indicates the degree of evaluating the reliability of the speech recognition result as a numerical value between 0 and 1.0. The reliability deriving unit 110a sets the reliability to 1.0, for example, when the reliability of the text is high, that is, when there is no other text as a conflict candidate. The reliability is derived using, for example, the posterior probability of a word obtained as a search result of the large vocabulary continuous speech recognition engine.

図9は、信頼度導出部110aによる信頼度導出処理を説明するための図である。信頼度導出部110aは、例えば、候補テキストE1〜E4のそれぞれの信頼度を導出する。選別部110は、例えば、信頼度導出部110aが導出した信頼度が閾値(例えば、0.8程度)以上である候補テキストE1およびE4をタスクテキストとして選択する。なお、選別部110は、複数のタスクテキストが選択可能である場合、信頼度の高いタスクテキストを優先的に選択してもよい。   FIG. 9 is a diagram for explaining the reliability deriving process performed by the reliability deriving unit 110a. The reliability deriving unit 110a derives, for example, the reliability of each of the candidate texts E1 to E4. The selection unit 110 selects, for example, candidate texts E1 and E4 whose reliability derived by the reliability deriving unit 110a is equal to or greater than a threshold (for example, about 0.8) as task texts. When a plurality of task texts can be selected, the selecting unit 110 may preferentially select a task text with high reliability.

[ベクトルリストのクラスタリング]
図10は、タスクテキストベクトルリスト120gを模式的に示す図である。タスクテキストベクトルリスト120gは、例えば、10個程度のクラスタ構造をとる。類似するタスクテキストをクラスタとして取りまとめる。クラスタは、例えば、k平均法(k-means clustering)等により構成される。
[Clustering Vector List]
FIG. 10 is a diagram schematically illustrating the task text vector list 120g. The task text vector list 120g has a cluster structure of about ten, for example. Collect similar task texts as clusters. The cluster is formed by, for example, k-means clustering.

また、タスクテキストベクトルリスト120gは、クラスタ毎に代表ベクトルを導出しておくことで、被検索効率を高めることができる。代表ベクトルとは、例えば、クラスタを構成するタスクテキストの文ベクトルの平均でもよいし、タスクテキストの優先度と文ベクトルによる加重平均であってもよい。   In the task text vector list 120g, the retrieval efficiency can be increased by deriving a representative vector for each cluster. The representative vector may be, for example, an average of the sentence vectors of the task texts forming the cluster, or a weighted average of the priority of the task text and the sentence vector.

図11は、代表ベクトルを説明するための図である。選別部110は、タスクテキストを選択する際に、まず代表ベクトルと、候補テキストの文ベクトルとを比較してクラスタを選択し、次に選択したクラスタの中から、好適なタスクテキストを選択する。   FIG. 11 is a diagram for explaining a representative vector. When selecting the task text, the selecting unit 110 first compares the representative vector with the sentence vector of the candidate text to select a cluster, and then selects a suitable task text from the selected cluster.

[テキストの類似評価]
以下、テキストの類似評価方法について説明する。図12は、類似評価方法について説明するための図である。
[Similarity evaluation of text]
Hereinafter, a text similarity evaluation method will be described. FIG. 12 is a diagram for explaining the similarity evaluation method.

言語モデル演算部112は、例えば、「ボリュームを下げて」の文ベクトルv1、および「音楽の音を小さくして」の文ベクトルv2を、式(1)に示すコサイン類似度を求める数式に適用することで、テキストの類似度を評価する。   The language model calculation unit 112 applies, for example, the sentence vector v1 of “turn down the volume” and the sentence vector v2 of “turn down the music sound” to a mathematical expression for calculating the cosine similarity shown in Expression (1). Then, the similarity of the text is evaluated.

Figure 2020042131
Figure 2020042131

式(1)は、文ベクトルv1と文ベクトルv2の積を、文ベクトルv1の絶対値と文ベクトルv2の絶対値の積で除算することを表す式であり、演算結果が1に近ければ文ベクトルv1と文ベクトルv2が類似していることを示す。   Expression (1) is an expression representing that the product of the sentence vector v1 and the sentence vector v2 is divided by the product of the absolute value of the sentence vector v1 and the absolute value of the sentence vector v2. This shows that the vector v1 and the sentence vector v2 are similar.

言語モデル演算部112は、コサイン類似度が閾値以上であれば、文ベクトルv1と文ベクトルv2とが類似である、すなわち、元のテキストが同一または類似の入力意図を示すと判別する。   If the cosine similarity is equal to or greater than the threshold, the language model calculation unit 112 determines that the sentence vector v1 and the sentence vector v2 are similar, that is, the original text indicates the same or similar input intention.

言語モデル演算部112は、例えば、クラスタの代表ベクトルと候補テキストの文ベクトルとの類似評価を行う。図13は、言語モデル演算部112による、クラスタ選択を模式的に示す図である。   The language model calculation unit 112 performs, for example, similarity evaluation between the representative vector of the cluster and the sentence vector of the candidate text. FIG. 13 is a diagram schematically illustrating cluster selection by the language model calculation unit 112.

言語モデル演算部112は、図13に示すように、例えば、候補テキスト「ボリュームを下げてほしいなあ」の文ベクトルと、クラスタC1およびC2の代表ベクトルとの類似度をそれぞれ導出し、類似度が高いクラスタC2を第1段階の選択対象として選択する。さらに、言語モデル演算部112は、選択したクラスタC2の中から第2段階の選択対象として1以上の好適なタスクテキストを選択する。   As shown in FIG. 13, for example, the language model calculation unit 112 derives the similarity between the sentence vector of the candidate text “I want to lower the volume” and the representative vectors of the clusters C1 and C2, respectively. The high cluster C2 is selected as a first-stage selection target. Further, the language model calculation unit 112 selects one or more suitable task texts as a second-stage selection target from the selected cluster C2.

[音声認識処理]
図14は、情報処理装置100による音声認識処理の流れの一例を示すフローチャートである。
[Speech recognition processing]
FIG. 14 is a flowchart illustrating an example of the flow of a voice recognition process performed by the information processing apparatus 100.

まず、取得部102は、音声データを取得する(S200)。次に、解析部104は、取得部102により出力された音声データを音響モデル120aに適用し、候補テキストを生成する(S202)。次に、言語モデル演算部112は、解析部104により出力された候補テキストを言語モデル120bに適用する(S204)。次に、選択部114は、言語モデル演算部112により出力された適用結果から、好適候補を選択する(S206)。次に、出力情報生成部116は、好適候補に基づいて出力情報を生成する(S208)。次に、出力部118は、出力情報を端末装置20等に出力する(S210)。以上、本フローチャートの処理の説明を終了する。   First, the acquisition unit 102 acquires audio data (S200). Next, the analysis unit 104 applies the audio data output by the acquisition unit 102 to the acoustic model 120a to generate a candidate text (S202). Next, the language model calculation unit 112 applies the candidate text output by the analysis unit 104 to the language model 120b (S204). Next, the selection unit 114 selects a suitable candidate from the application result output by the language model calculation unit 112 (S206). Next, the output information generation unit 116 generates output information based on the suitable candidates (S208). Next, the output unit 118 outputs the output information to the terminal device 20 or the like (S210). This is the end of the description of the processing in this flowchart.

以上、説明した実施形態の情報処理装置100によれば、音声データを取得する取得部102と、音声データを解析して候補テキストに変換した、1以上の解析結果を出力する解析部104と、解析結果に係る候補テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換するW2V実行部106と、W2V実行部106により変換されたベクトル値と、音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている単語ベクトルリスト120fとに基づいて、1以上の解析結果から入力意図が反映された可能性の高い解析結果を選択する選択部114と、を備えることにより、より効率的に音声認識処理を行うことができる。   According to the information processing apparatus 100 of the embodiment described above, the acquisition unit 102 that acquires audio data, the analysis unit 104 that outputs one or more analysis results obtained by analyzing audio data and converting it into a candidate text, A W2V execution unit 106 that converts each of a plurality of words included in the candidate text according to the analysis result into a vector value by a distributed expression, a vector value converted by the W2V execution unit 106, and a voice related to voice data are issued. The input intention of the user's input text corresponds to the known input text, and based on the previously obtained word vector list 120f, an analysis result having a high possibility that the input intention is reflected is obtained from one or more analysis results. By providing the selection unit 114 for selecting, the voice recognition processing can be performed more efficiently.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。   As described above, the embodiments for carrying out the present invention have been described using the embodiments. However, the present invention is not limited to these embodiments at all, and various modifications and substitutions may be made without departing from the gist of the present invention. Can be added.

100…情報処理装置、20…端末装置、30…制御対象デバイス、40…サービスサーバ、100…情報処理装置、102…取得部、104…解析部、106…W2V実行部、108…テキストベクトル生成部、110…選別部、110a…信頼度導出部、112…言語モデル演算部、114…選択部、116…出力情報生成部、118…出力部   100 information processing device, 20 terminal device, 30 controlled device, 40 service server, 100 information processing device, 102 acquisition unit, 104 analysis unit, 106 W2V execution unit, 108 text vector generation unit , 110: selection unit, 110a: reliability derivation unit, 112: language model calculation unit, 114: selection unit, 116: output information generation unit, 118: output unit

Claims (9)

音声データを取得する取得部と、
前記音声データを解析してテキストに変換した、1以上の解析結果を出力する解析部と、
前記解析結果に係る前記テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換するベクトル変換部と、
前記ベクトル変換部により変換されたベクトル値と、前記音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記1以上の解析結果から前記入力意図が反映された可能性の高い前記解析結果を選択する選択部と、
を備える情報処理装置。
An acquisition unit for acquiring audio data;
An analysis unit that outputs one or more analysis results obtained by analyzing the voice data and converting the text to text;
A vector conversion unit that converts each of a plurality of words included in the text according to the analysis result into a vector value by a distributed expression,
The vector value converted by the vector conversion unit, and the input intention of the input text of the user who uttered the voice related to the voice data corresponds to the known input text, and the vector of the known input text is obtained in advance. A selection unit that selects the analysis result having a high possibility that the input intention is reflected from the one or more analysis results based on the value and
An information processing apparatus comprising:
前記解析結果の信頼度を導出する、信頼度導出部をさらに備え、
前記選択部は、前記信頼度に基づいて選択する前記解析結果を変更する、
請求項1に記載の情報処理装置。
Deriving the reliability of the analysis result, further comprising a reliability deriving unit,
The selecting unit changes the analysis result to be selected based on the reliability,
The information processing device according to claim 1.
前記選択部は、前記信頼度が閾値以上である前記解析結果を優先的に選択する、
請求項2に記載の情報処理装置。
The selecting unit preferentially selects the analysis result whose reliability is equal to or greater than a threshold,
The information processing device according to claim 2.
前記ベクトル変換部は、意味の類似度が所定の度合以上の前記既知の入力テキストの一群であるクラスタの代表ベクトルを導出し、
前記選択部は、前記代表ベクトルを用いて前記解析結果の第1段階の選択を行い、その後、前記第1段階の選択により選択された前記クラスタから前記利用者の入力テキストの入力意図が反映された可能性の高い前記解析結果を選択する、
請求項1から3のいずれか1項に記載の情報処理装置。
The vector conversion unit derives a representative vector of a cluster that is a group of the known input texts whose similarity of meaning is equal to or more than a predetermined degree,
The selection unit performs a first-stage selection of the analysis result using the representative vector, and then reflects the user's input intention of the input text from the cluster selected by the first-stage selection. Selecting the analysis result that is likely to have
The information processing apparatus according to claim 1.
前記選択部は、前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
請求項1から4のいずれか1項に記載の情報処理装置。
The selection unit, based on the position information given to the audio data, determines whether the audio data includes a user's task execution intention,
The information processing apparatus according to claim 1.
前記選択部は、前記位置情報に基づいて推定される前記音声データの入力環境に応じて、前記対応するタスクの選択する確度を変更する、
請求項5に記載の情報処理装置。
The selection unit changes the accuracy of selecting the corresponding task according to the input environment of the audio data estimated based on the position information,
The information processing device according to claim 5.
前記選択部による選択結果に基づいて、前記入力意図に対応する出力情報を生成するタスクに関する命令を出力する出力情報生成部を更に備える、
請求項1から6のいずれか1項に記載の情報処理装置。
An output information generation unit that outputs an instruction related to a task that generates output information corresponding to the input intention based on a selection result by the selection unit,
The information processing apparatus according to claim 1.
コンピュータが、
音声データを取得し、
前記音声データを解析してテキストに変換した、1以上の解析結果を出力し、
前記解析結果に係る前記テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換し、
変換されたベクトル値と、前記音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記1以上の解析結果から前記入力意図が反映された可能性の高い前記解析結果を選択する、
情報処理方法。
Computer
Get audio data,
Outputting the one or more analysis results obtained by analyzing the voice data and converting it to text,
Converting to a vector value by a distributed expression indicating each of a plurality of words included in the text according to the analysis result,
Based on the converted vector value and the input value of the input text of the user who uttered the voice related to the voice data corresponds to the known input text, and based on the previously determined vector value of the known input text. Selecting the analysis result having a high possibility that the input intention is reflected from the one or more analysis results,
Information processing method.
コンピュータに、
音声データを取得させ、
前記音声データを解析させてテキストに変換させた、1以上の解析結果を出力させ、
前記解析結果に係る前記テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換させ、
変換されたベクトル値と、前記音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記1以上の解析結果から前記入力意図が反映された可能性の高い前記解析結果を選択させる、
プログラム。
On the computer,
Get audio data,
The voice data is analyzed and converted into text, and one or more analysis results are output,
Converted into a vector value by a distributed expression indicating each of a plurality of words included in the text according to the analysis result,
Based on the converted vector value and the input value of the input text of the user who uttered the voice related to the voice data corresponds to the known input text, and based on the previously determined vector value of the known input text. Allowing the user to select the analysis result having a high possibility that the input intention is reflected from the one or more analysis results,
program.
JP2018168724A 2018-09-10 2018-09-10 Information processing equipment, information processing methods, and programs Active JP7058574B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018168724A JP7058574B2 (en) 2018-09-10 2018-09-10 Information processing equipment, information processing methods, and programs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018168724A JP7058574B2 (en) 2018-09-10 2018-09-10 Information processing equipment, information processing methods, and programs

Publications (2)

Publication Number Publication Date
JP2020042131A true JP2020042131A (en) 2020-03-19
JP7058574B2 JP7058574B2 (en) 2022-04-22

Family

ID=69798120

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018168724A Active JP7058574B2 (en) 2018-09-10 2018-09-10 Information processing equipment, information processing methods, and programs

Country Status (1)

Country Link
JP (1) JP7058574B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113093625A (en) * 2021-04-12 2021-07-09 广州宏途教育网络科技有限公司 Student behavior analysis system for intelligent classroom
WO2021186501A1 (en) * 2020-03-16 2021-09-23 日本電気株式会社 Speech recognition device, control method, and program
CN113903340A (en) * 2020-06-18 2022-01-07 北京声智科技有限公司 Sample screening method and electronic device
WO2022044957A1 (en) * 2020-08-31 2022-03-03 Recruit Co., Ltd. Systems and methods for enhanced review comprehension using domain-specific knowledgebases

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049541A (en) * 1996-08-01 1998-02-20 Takatsugu Kitagawa Meaning information processor
JP2007122383A (en) * 2005-10-27 2007-05-17 Toshiba Corp Machine translation device, machine translation method, and machine translation program
JP2010224194A (en) * 2009-03-23 2010-10-07 Sony Corp Speech recognition device and speech recognition method, language model generating device and language model generating method, and computer program
JP2015001695A (en) * 2013-06-18 2015-01-05 日本電信電話株式会社 Voice recognition device, and voice recognition method and program
JP2018045001A (en) * 2016-09-12 2018-03-22 株式会社リコー Voice recognition system, information processing apparatus, program, and voice recognition method
JP2018045657A (en) * 2016-09-16 2018-03-22 ヤフー株式会社 Learning device, program parameter and learning method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1049541A (en) * 1996-08-01 1998-02-20 Takatsugu Kitagawa Meaning information processor
JP2007122383A (en) * 2005-10-27 2007-05-17 Toshiba Corp Machine translation device, machine translation method, and machine translation program
JP2010224194A (en) * 2009-03-23 2010-10-07 Sony Corp Speech recognition device and speech recognition method, language model generating device and language model generating method, and computer program
JP2015001695A (en) * 2013-06-18 2015-01-05 日本電信電話株式会社 Voice recognition device, and voice recognition method and program
JP2018045001A (en) * 2016-09-12 2018-03-22 株式会社リコー Voice recognition system, information processing apparatus, program, and voice recognition method
JP2018045657A (en) * 2016-09-16 2018-03-22 ヤフー株式会社 Learning device, program parameter and learning method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021186501A1 (en) * 2020-03-16 2021-09-23 日本電気株式会社 Speech recognition device, control method, and program
CN113903340A (en) * 2020-06-18 2022-01-07 北京声智科技有限公司 Sample screening method and electronic device
WO2022044957A1 (en) * 2020-08-31 2022-03-03 Recruit Co., Ltd. Systems and methods for enhanced review comprehension using domain-specific knowledgebases
US11620448B2 (en) 2020-08-31 2023-04-04 Recruit Co., Ltd. Systems and methods for enhanced review comprehension using domain-specific knowledgebases
US11934783B2 (en) 2020-08-31 2024-03-19 Recruit Co., Ltd. Systems and methods for enhanced review comprehension using domain-specific knowledgebases
CN113093625A (en) * 2021-04-12 2021-07-09 广州宏途教育网络科技有限公司 Student behavior analysis system for intelligent classroom

Also Published As

Publication number Publication date
JP7058574B2 (en) 2022-04-22

Similar Documents

Publication Publication Date Title
US10991366B2 (en) Method of processing dialogue query priority based on dialog act information dependent on number of empty slots of the query
CN107590135B (en) Automatic translation method, device and system
JP6317111B2 (en) Hybrid client / server speech recognition
US11282524B2 (en) Text-to-speech modeling
JP7058574B2 (en) Information processing equipment, information processing methods, and programs
US20200082808A1 (en) Speech recognition error correction method and apparatus
US20190221208A1 (en) Method, user interface, and device for audio-based emoji input
CN111837116B (en) Method for automatically constructing or updating dialog flow management model of dialog type AI system
CN111428010B (en) Man-machine intelligent question-answering method and device
US11574637B1 (en) Spoken language understanding models
JP6019604B2 (en) Speech recognition apparatus, speech recognition method, and program
US11586689B2 (en) Electronic apparatus and controlling method thereof
JP2010537321A (en) Method and system for optimal selection strategy for statistical classification
JP6370962B1 (en) Generating device, generating method, and generating program
KR101891498B1 (en) Method, computer device and computer readable recording medium for multi domain service resolving the mixture of multi-domain intents in interactive ai agent system
US11200885B1 (en) Goal-oriented dialog system
US10600419B1 (en) System command processing
US11043215B2 (en) Method and system for generating textual representation of user spoken utterance
CN110164416B (en) Voice recognition method and device, equipment and storage medium thereof
US11532301B1 (en) Natural language processing
TW200415573A (en) Adaptive context sensitive analysis
KR20210020656A (en) Apparatus for voice recognition using artificial intelligence and apparatus for the same
KR102120751B1 (en) Method and computer readable recording medium for providing answers based on hybrid hierarchical conversation flow model with conversation management model using machine learning
CN112395396A (en) Question-answer matching and searching method, device, system and storage medium
JP6408080B1 (en) Generating device, generating method, and generating program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220412

R150 Certificate of patent or registration of utility model

Ref document number: 7058574

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350