JP2018081298A - 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置 - Google Patents
自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置 Download PDFInfo
- Publication number
- JP2018081298A JP2018081298A JP2017179163A JP2017179163A JP2018081298A JP 2018081298 A JP2018081298 A JP 2018081298A JP 2017179163 A JP2017179163 A JP 2017179163A JP 2017179163 A JP2017179163 A JP 2017179163A JP 2018081298 A JP2018081298 A JP 2018081298A
- Authority
- JP
- Japan
- Prior art keywords
- word
- vector
- character
- natural language
- language processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 223
- 230000008859 change Effects 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 206010034719 Personality change Diseases 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/111—Mathematical or scientific formatting; Subscripts; Superscripts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
【課題】 自然語処理方法を提供する。【解決手段】 一実施形態は音声認識により認識された文章データのワードをワードベクトルに変換し、前記文章データのキャラクターをキャラクターベクトルに変換し、前記ワードベクトルと前記キャラクターベクトルに基づいて文章ベクトルを生成し、前記文章ベクトルに基づいて前記文章データの意図情報を決定する。【選択図】 図1
Description
以下の実施形態は、自然語処理方法及び装置に関する。
音声認識は、ユーザの音声を認識する技術である。音声認識において人音声はテキストに変換される。このような音声認識で音声認識エラーが発生したり、音声認識により初めて接する単語が登場する場合、入力された音声を正確なテキストに変換して当該音声認識を適切に処理することが容易ではない。
本発明の目的は、自然語処理方法及び装置を提供することにある。
一側面に係る自然語処理方法は、音声認識により認識された文章データのワードをワードベクトルに変換するステップと、前記文章データのキャラクターをキャラクターベクトルに変換するステップと、前記ワードベクトルと前記キャラクターベクトルに基づいて文章ベクトルを生成するステップと、前記文章ベクトルに基づいて前記文章データの意図情報を決定するステップとを含む。
前記文章ベクトルを生成するステップは、前記ワードそれぞれに対するワードベクトルと前記ワードのキャラクターそれぞれに対するキャラクターベクトルを連結して前記ワードそれぞれに対する結合ベクトルを生成するステップと、前記ワードそれぞれに対する結合ベクトルを連結して前記文章ベクトルを生成するステップとを含み得る。
前記ワードをワードベクトルに変換するステップは、前記ワードに標識されていない(unlabeled)ワードがある場合、前記標識されていないワードに該当するワードを未知(unknown)に対応するベクトルに変換するステップを含み得る。
前記意図情報を決定するステップは、前記文章ベクトルから決定された複数の候補意図情報それぞれに対する確率を算出するステップと、前記複数の候補意図情報それぞれの確率に基づいて前記複数の候補意図情報のうち前記意図情報を決定するステップとを含み得る。
前記意図情報を決定するステップは、前記文章データ内のエラーワードに対する結合ベクトルに基づいて、前記エラーワードに対応する対象ワードを決定するステップと、前記エラーワードを前記対象ワードとして認識するステップとを含み、前記エラーワードに対する結合ベクトルは、前記エラーワードに対するワードベクトルと前記エラーワードのキャラクターそれぞれに対するキャラクターベクトルが連結して生成され得る。
前記エラーワードに対するワードベクトルは、前記エラーワードが標識されていないワードである場合、未知に対応するベクトルであり得る。
前記意図情報は、前記文章ベクトルが入力された自然語処理モデルによって生成されてもよい。
前記自然語処理モデルは、第1ワードにノイズが適用されて生成された第2ワードを含む学習データが入力された場合、前記第2ワードを前記第1ワードとして認識するように学習され得る。
前記第2ワードは、前記第1ワードのキャラクターのうち一部が他のキャラクターに変更されたり、前記第1ワードに前記他のキャラクターが追加されて生成され得る。
前記自然語処理方法は、音声信号を受信するステップと、前記音声信号から特徴を抽出するステップと、音響モデルによって前記特徴から音素シーケンスを認識するステップと、言語モデルによって前記音素シーケンスからワードを認識して前記文章データを生成するステップとをさらに含み得る。
一実施形態に係る学習装置は、コントローラと、前記コントローラによって実行可能な少なくとも1つの命令語を含むメモリとを含み、前記少なくとも1つの命令語が前記コントローラで実行されれば、前記コントローラは、文章データのワードにノイズを適用して変更ワードを生成し、前記変更ワード及び前記ノイズが適用されていない他のワードをワードベクトルに変換し、前記変更ワードのキャラクター及び前記他のワードのキャラクターをキャラクターベクトルに変換し、前記ワードベクトルと前記キャラクターベクトルに基づいて文章ベクトルを生成し得る。
前記コントローラは、前記変更ワードに対するワードベクトルと前記変更ワードのキャラクターそれぞれに対するキャラクターベクトルを連結して前記変更ワードに対する結合ベクトルを生成し、前記他のワードに対するワードベクトルと前記他のワードのキャラクターそれぞれに対するキャラクターベクトルを連結して前記他のワードに対する結合ベクトルを生成し、前記変更ワードに対する結合ベクトルと前記他のワードに対する結合ベクトルを連結して前記文章ベクトルを生成し得る。
前記コントローラは、予め決定した基準に応じて、前記ワードのキャラクターのうち変更するキャラクターを決定し、予め決定された辞典から他のキャラクターを選択し、前記決定されたキャラクターを前記他のキャラクターに代替し、前記予め決定した基準は、前記ワードの長さ、キャラクター変更個数、及び変更位置に基づいて決定された基準であり得る。
前記変更ワードは、前記ワードのキャラクターを他のキャラクターに変更したり、前記キャラクターに前記他のキャラクターを追加して生成され、前記変更ワードに対するワードベクトルは、前記変更ワードが標識されていないワードである場合、未知に対応するベクトルであり得る。
前記コントローラは、前記文章データ内のワードのうち前記ワードを任意に選択してもよい。
本発明によると、自然語処理方法及び装置を提供することができる。
以下、実施形態を添付する図面を参照しながら詳細に説明する。
本明細書で開示されている本発明の概念による実施形態に対して特定の構造的又は機能的な説明は、単に本発明の概念による実施形態を説明するための目的として例示したものであり、本発明の概念による実施形態は様々な形態で実施され、本明細書に説明された実施形態に限定されることはない。
第1又は第2などの用語を複数の構成要素を説明するために用いることができるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素にも命名することができる。
単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
図1は、一実施形態に係る自然語処理装置の一例を説明するための図である。図1を参照すると、一実施形態に係る自然語処理装置100は、音声認識器110及び自然語分析器120を含む。
自然語処理装置100は音声信号を受信する。自然語処理装置100はサーバ形態に実現され、ユーザ端末からネットワークを介してユーザの音声信号を受信する。例えば、自然語処理装置100は、ユーザ端末から「父親に写真を送って」の音声信号を受信する。
音声認識器110は、音声信号を音声認識して文章データを生成する。例えば、音声認識器110は、「父親に写真を送って」の音声信号を音声認識して「父親に写真を送って」の文章データを生成する。音声認識器110については図2を参照して後述する。
自然語分析器120は、音声認識器110から文章データを受信する。自然語分析器120は、文章データに形態素(morpheme)分析、構文(syntax)分析、意味(semantic)分析、及び談話(discourse)分析のうち1つ以上を行う。このような分析によって、自然語分析器120は文章データの意図情報を決定する。例えば、自然語分析器120は、「父親に写真を送って」の文章データを分析して文章データの意図情報を「父親の端末に写真を送信しろ」のよう決定できる。ここで、「送って」とは、父親の写真を「取り戻して(retrieve)送信しろ」という意味として分析される。
一実施形態において、音声認識器110が周辺の騒音、低い音声信号、又は他の問題によって音声信号を正確に認識することはできない例として、自然語分析器120は、音声認識器110によって生成された文章データの意図情報を予測する。例えば、自然語分析器120は、エラーワードを含む文章データの意図情報を予測する。ここで、エラーワードは、音声認識器110の不正確な音声認識によって生成されたワードであり得る。自然語分析器120については図3を参照して後述する。
自然語分析器120は、意図情報に基づいて結果情報を生成する。例えば、自然語分析器120は、「父親に写真を送って」の文章データを分析して文章データの意図情報を「父親の端末に写真を送信しろ」のように決定した場合、自然語分析器120は「父親の端末に写真を送信しろ」に対応する制御信号を生成する。
自然語処理装置100は、生成された結果情報を送信する。例えば、自然語処理装置100は、「父親の端末に写真を送信しろ」に対応する制御信号をユーザ端末に送信する。ユーザ端末は、制御信号に応じて動作して音声信号を発話したユーザの父親の端末に写真を送信することができる。
図2は、一実施形態に係る音声認識器を説明するための図である。図2を参照すると、一実施形態に係る音声認識器200は、特徴抽出部210、音響モデル220、デコーダ230、及び言語モデル240を含む。
音声認識器200は、音声信号が入力される。音声認識器200が「Where is a French restaurant?」の音声信号が入力されると仮定する。
特徴抽出部210は、音声信号から特徴又は特徴ベクトルを抽出する。特徴抽出部210は、LPC(Linear Predictive Coding)方式又はMFCC(Mel Frequency Cepstral Coefficients)方式などを用いて音声信号から特徴又は特徴ベクトルを抽出する。
音響モデル220は、特徴から音素を認識する。音響モデル220は、例えば、DTW(Dynamic Time Warping)基盤音響モデル又はHMM(Hidden Markov Modeling)基盤音響モデルなどである。音響モデル220は前述した事項に制限されない。
デコーダ230は、言語モデル240によって音素からワードを認識して文章データを生成する。言語モデル240は、例えば、N−グラム言語モデル又はニューラルネットワーク基盤モデルであり得る。言語モデル240は前述した事項に制限されない。
音声認識器200は、ノイズ又は他の周辺因子の影響で音声信号を正確に認識できないこともある。相違に表現すれば、音声認識エラーが発生することがある。例えば、音声認識器200は「Where is a French restaurant?」の音声信号を正確に認識できず、「Where is a Franch restaurant?」の文章データを生成する。「Where is a Franch restaurant?」の文章データは、エラーワード又はエラーのあるワード「Franch」を含む。この場合、文章データの意図情報が正確に決定されない。一実施形態に係る自然語分析器(図示せず)は、「Where is a Franch restaurant?」の文章データの意図情報を「French restaurantに対する検索」として予測する。以下、図3を参照しながら自然語分析器について説明する。
図3は、一実施形態に係る自然語分析器を説明するための図である。図3を参照すると、自然語分析器300は、ベクトル変換部310及び自然語処理モデル320を含む。
自然語分析器300は、音声認識器(図示せず)から文章データを受信する。自然語分析器300は、音声認識器から「Where is a Franch restaurant?」の文章データを受信すると仮定する。
ベクトル変換部310は、文章データのワードをワードベクトルに変換する。例えば、ベクトル変換部310は、「Where is a Franch restaurant?」の「Where」、「is」、「a」、「Franch」、及び「restaurant」のそれぞれをワード埋込(word embedding)によってワードベクトルに変換する。ワードベクトルは、実数ベクトルであってもよい。ワードベクトルは、例えば、ワン・ホットベクトル(one−hot vector)又は分布型ベクトル(distributional vector)である。
文章データは、標識されていない(unlabeled)ワードを含み得る。標識されていないワードは、ベクトルが定義されていないワードを意味する。文章データが標識されていないワードを含む場合、ベクトル変換部310は標識されていないワードを未知(unknown)として処理する。例えば、「Franch」が標識されていないワードである場合、ベクトル変換部310は「Franch」をunknownとして処理し、unknownに対応するベクトルに変換する。unknownに対応するベクトルは、例えば、「0、0、0、0、0、0、0、1」のような定数ベクトル又は予め定義されたベクトルである。unknownに対応するベクトルは前述した例に制限されることはない。
以下、ワードベクトルを「ワード」に表現する。下記の表1は「Where is a Franch restaurant?」のワードそれぞれに対するワードベクトルを示す。
以下、キャラクターベクトルを「キャラクター」のように表現する。下記の表2は「Where is a Franch restaurant?」のキャラクターそれぞれに対するキャラクターベクトルを示す。
ベクトル変換部310は、文章ベクトルを自然語処理モデル320に入力し得る。自然語処理モデル320は、ニューラルネットワーク基盤モデルである。自然語処理モデル320には、学習によって最適化された連結加重値が適用される。自然語処理モデル320は、文章ベクトルが入力されれば、文章ベクトルを前方演算して文章データの意図情報を決定する。前方演算は、自然語処理モデル320の入力レイヤ→中間レイヤ→出力レイヤ方向に実行される演算を示す。前方演算によって出力レイヤで文章データの意図情報が生成される。
一実施形態において、文章データはエラーワードを含んでもよい。自然語処理モデル320は、エラーワードを含む文章データに対する文章ベクトルを前方演算してエラーワードを含む文章データの意図情報を決定する。より具体的に、自然語処理モデル320は、エラーワードに対する結合ベクトル又はエラーワードのキャラクターそれぞれに対するキャラクターベクトルに基づいて前方演算を行ってもよい。自然語処理モデル320は、前方演算によってエラーワードをエラーワードに対応する対象ワードとして認識する。また、自然語処理モデル320は、エラーワードを対象ワードとして認識して文章データの意図情報を決定する。
一例として、自然語処理モデル320は、エラーワード「Franch」を含む文章データ「Where is a Franch restaurant?」に対する文章ベクトルが入力されてもよい。自然語処理モデル320は、「Where is a Franch restaurant?」に対する文章ベクトルに実行される前方演算に基づいて、「Franch」に対する結合ベクトル「Franch」「F」「r」「a」「n」「c」「h」から「French」に対する結合ベクトル「French」「F」「r」「e」「n」「c」「h」を予測する。ここで、「Franch」がunknownに対応するベクトルであれば、自然語処理モデル320は、「Franch」のキャラクターベクトルが連結された「F」「r」「a」「n」「c」「h」から「French」に対する結合ベクトル「French」「F」「r」「e」「n」「c」「h」を予測する。後述するが、自然語処理モデル320は、ノイズが適用されたワードを含む学習データとして予め学習されたモデルである。そのため、自然語処理モデル320は、「Franch」「F」「r」「a」「n」「c」「h」又は「F」「r」「a」「n」「c」「h」から「French」「F」「r」「e」「n」「c」「h」を予測する。自然語処理モデル320は、このような予測によって「Franch」に対応する対象ワードを「French」に決定できる。自然語処理モデル320は「Franch」を「French」に認識する。自然語処理モデル320は、「Franch」を「French」に認識して「Where is a Franch restaurant?」の意図情報を「Frenchに対する検索」として決定する。自然語処理モデル320の学習については図7を参照して説明する。
実現によって、自然語処理モデル320は、文章ベクトルから決定された複数の候補意図情報それぞれに対する確率を算出する。自然語処理モデル320は、複数の候補意図情報それぞれの確率に基づいて、複数の候補意図情報のうち文章データの意図情報を決定する。一例として、自然語処理モデル320は、確率が最大である候補意図情報を文章データの意図情報として決定する。文章データにエラーワードが含まれている場合、エラーワードが対象ワードと認識されて決定された候補意図情報の確率が最大であり得る。自然語処理モデル320は、当該の候補意図情報を文章データの意図情報として決定する。
自然語分析器300は、意図情報に基づいて結果情報を生成する。例えば、自然語分析器300は、「French restaurantに対する検索」のための制御信号を生成する。また、自然語分析器300は、エラーワードを対象ワードに変更する。自然語分析器300は、意図情報に対応する文章データを生成する。例えば、自然語分析器300は、「Franch」を「French」に変更して意図情報に対応する文章データ「Where is a French restaurant?」を生成する。相違に表現すれば、自然語分析器300は、入力された文章データ内のエラーワードを対象ワードとして修正する。
自然で分析器300は、音声信号を送信したユーザ端末などに結果情報を送信する。
一実施形態に係る自然語分析器300は、ノイズ又は音声認識エラーに剛健(robust)であり、音声信号をテキストデータに変換するとき発生するエラーの処理正確度を高めることができる。
図4は、一実施形態に係る文章ベクトルの生成を説明するための図である。
図3を参照して説明したベクトル変換部は、文章データ410のワードそれぞれに対する結合ベクトル420〜424を生成する。例えば、ベクトル変換部は、「Where」、「W」、「h」、「e」、「r」、及び「e」を連結して「Where」に対する結合ベクトル420を生成する。一例として、図4に示した例のように、「Where」に対する結合ベクトル420は「Where」「W」「h」「e」「r」「e」である。実現によって、「Where」に対する結合ベクトル420は「W」「h」「e」「r」「e」「Where」又は「W」「Where」「h」「e」「r」「e」であってもよい。「Where」に対する結合ベクトル420は前述した事項に制限されない。同様に、ベクトル変換部は、「Where is a Franch restaurant?」の残りのワードに対する結合ベクトル421〜424を生成する。ここで、「Franch」が標識されていないワード又は識別されないワードと仮定する。上記で説明したように、ベクトル変換部は、「Franch」をunknownに対応するベクトルに変換する。ベクトル変換部は、unknownに対応するベクトルと「Franch」のキャラクターそれぞれのキャラクターベクトルを連結して「Franch」に対する結合ベクトル423を生成する。
図4に「Where is a Franch restaurant?」のワードそれぞれに対する結合ベクトル420〜424が示されている。
ベクトル変換部は、文章データ410のワードそれぞれに対する結合ベクトル420〜424を連結して文章ベクトル430を生成する。図4に示した例のように、ベクトル変換部は、「Where is a Franch restaurant?」に対する文章ベクトル430「Where」「W」「h」「e」「r」「e」…「Franch」「F」...「restaurant」...「a」「n」「t」を生成する。「Where is a Franch restaurant?」に対する文章ベクトルは前述した事項に制限されない。また、文章データ410は、複数の標識されていないワード又は識別されないワードを含み得る。
図4には実数ベクトル440が示されている。実数ベクトル440は、文章ベクトル430を相違に表現したのである。
図5は、一実施形態に係る学習装置を説明するための図である。図5を参照すると、一実施形態に係る学習装置500は、ノイズ適用部510、ワード埋込部520、キャラクター埋込部530、結合部540、及び自然語処理モデル550を含む。
「Searching for a French food recipe」の文章データが学習装置500に入力されると仮定する。文章データは、学習データとして学習装置500に入力される。
ノイズ適用部510は、文章データ内のワードにノイズを適用して変更ワードを生成する。ノイズ適用部510は、文章データ内のワードのうち1つ以上のワードを任意に選択し、選択されたワードにノイズを適用する。相違に表現すれば、ノイズ適用部510は、文章データにノイズを注入する。例えば、ノイズ適用部510は、「Searching for a French food recipe」から「French」と「recipe」を選択し、「French」と「recipe」にノイズを適用する。ノイズ適用結果、「French」の3番目の位置に該当するキャラクター「e」が「a」に変更され、変更ワード「Franch」が生成される。また、ノイズ適用結果、「recipe」の6番目の位置に該当するキャラクター「e」が「i」に変更され、変更ワード「recipi」が生成される。ノイズ適用については図6を参照して後述する。
ワード埋込部520は、ワード埋込によって変更ワードをワードベクトルに変換する。一実施形態において、ワード埋込部520は、変更ワードが標識されていないワードであれば、変更ワードをunknownとして処理して変更ワードをunknownに対応するベクトルに変換する。
ワード埋込部520は、ノイズが適用されていない他のワードをワードベクトルに変換する。例えば、ワード埋込部520は、「Searching」、「for」、「a」、及び「food」それぞれを「Searching」、「for」、「a」、及び「food」に変換する。文章データで1つ又はそれ以上の他のワードが標識されていないワード又は識別されていないワードであれば、ワード埋込部520は、文章データの1つ又はそれ以上の他のワードをunknownに対応するベクトルに変換する。
キャラクター埋込部530は、変更ワードのキャラクター及びノイズが適用されていない1つ又はそれ以上の他のワードのキャラクターをキャラクターベクトルに変換する。例えば、キャラクター埋込部530は、「Franch」のキャラクター「F」、「r」、「a」、「n」、「c」、及び「h」それぞれをキャラクターベクトル「F」、「r」、「a」、「n」、「c」、及び「h」に変換する。また、キャラクター埋込部530は「recipi」のキャラクター「r」、「e」、「c」、「i」、「p」、及び「i」それぞれをキャラクターベクトル「r」、「e」、「c」、「i」、「p」、及び「i」に変換する。同様に、キャラクター埋込部530は、「Searching」、「for」、及び「food」のキャラクターそれぞれをキャラクターベクトルに変換する。
結合部540は、変更ワード及びノイズが適用されていない他のワード(又は他のワード)のワードベクトルとキャラクター特徴ベクトルに基づいて文章ベクトルを生成する。一実施形態において、結合部540は、変更ワードに対するワードベクトルと変更ワードのキャラクターそれぞれに対するキャラクターベクトルを連結して変更ワードに対する結合ベクトルを生成する。また、結合部540は、他のワードに対するワードベクトルと他のワードのキャラクターそれぞれに対するキャラクターベクトルを連結して他のワードに対する結合ベクトルを生成する。結合部540は、変更ワードに対する結合ベクトルと他のワードに対する結合ベクトルを連結して文章ベクトルを生成する。
例えば、結合部540は、変更ワード「Franch」に対する結合ベクトルと他のワードに対する結合ベクトルを連結して文章ベクトル「Searching」「S」...「Franch」「F」「r」「a」...「recipe」...「i」「p」「e」を生成する。また、結合部540は、変更ワード「recipi」に対する結合ベクトルと他のワードに対する結合ベクトルを連結して文章ベクトル「Searching」「S」...「French」「F」「r」「e」...「recipi」...「i」「p」「i」を生成する。
文章ベクトルの生成については図4を参照して説明したため、詳しい説明を省略する。
結合部540が生成した文章ベクトルは、ノイズを含む文章データ(又は、ノイズが適用されたワードを含む文章データ)に対応する。例えば、「Searching」「S」...「Franch」「F」「r」「a」...「recipe」...「i」「p」「e」は「Searching for a Franch food recipe」に対応する。また、「Searching」「S」...「French」「F」「r」「e」...「recipi」...「i」「p」「i」は「Searching for a French food recipi」に対応する。相違に表現すれば、学習装置500に入力された文章データと異なる文章データ「Searching for a Franch food recipe」と「Searching for a French food recipi」が生成される。
学習装置500は、文章ベクトルを用いて自然語処理モデル550を学習させ得る。相違に表現すれば、学習装置500は、ノイズを含む文章データによって自然語処理モデル550を学習させ得る。学習によって自然語処理モデル550は、ノイズに剛健になり、文章データにエラーワードが含まれている場合、エラーワードに対する処理正確度は増加する。
自然語処理モデル550の学習については図7を参照して後述する。
図6は、一実施形態に係るノイズ適用を説明するための図である。
図5を参照して説明したように、ノイズ適用部は、文章データで1つ以上のワードを選択する。例えば、ノイズ適用部は1つ以上のワードを任意に選択する。また、ノイズ適用部は、選択されたワードにノイズを適用する。一実施形態において、ノイズ適用部は、選択されたワードのキャラクターのうち変更するキャラクターを予め決定した基準に応じて決定する。予め決定した基準は、英語のような特定言語で特定ワードの誤った発音又は典型的なエラーに対する統計的分析に基づく。また、予め決定した基準は、子供、大人又は英語が母国語ではない人の誤った発音を考慮したものである。また、予め決定した基準は、風、周辺騒音などの周辺ファクターを考慮したものである。ノイズ適用部は、予め決定された辞典からキャラクターを選択し、決定されたキャラクターを選択されたキャラクターに代替できる。下記の表3は予め決定した基準を示す。予め決定した基準は以下の表3に制限されない。
ノイズ適用部は、予め決定された辞典からキャラクター「a」を選択し、「French」で決定されたキャラクター「e」を選択されたキャラクター「a」に代替して変更ワード「Franch」を生成する。また、ノイズ適用部は、予め決定された辞典からキャラクターiを選択し、「recipe」で決定されたキャラクター「e」を選択されたキャラクター「i」に代替して変更ワード「recipi」を生成する。
実現によって、ノイズ適用部は、予め決定された辞典から選択したキャラクターを文章データで選択されたワードに追加する。例えば、ノイズ適用部は、「French」の最後の位置に該当するキャラクター「h」の次の位置に予め決定された辞典で選択したキャラクター「a」を追加して変更ワード「Frencha」を生成する。また、ノイズ適用部は、「recipe」の5番目の位置に該当するキャラクター「p」の次の位置に予め決定された辞典から選択したキャラクター「i」を追加して変更ワード「recipie」を生成する。
図6を参照して説明したノイズ適用は、一実施形態に係る例示的な事項に過ぎず、ノイズ適用は前述した事項に制限されることはない。
図7〜図9は、一実施形態に係る自然語処理モデルを説明するための図である。
図7を参照すると、自然語処理モデルは、ニューラルネットワーク(Neural Network:NN)700基盤モデルであり得る。
ニューラルネットワーク700は、複数のレイヤ710〜730を含む。例えば、ニューラルネットワーク700は、入力レイヤ710、隠れレイヤ720、及び出力レイヤ730を含む。実現によって、ニューラルネットワーク700は複数の隠れレイヤを含んでもよい。
複数のレイヤ710〜730のそれぞれは、1つ以上の人工ニューロンを含んでもよい。複数のレイヤ710〜730それぞれの1つ以上の人工ニューロンは、隣接するレイヤの1つ以上の人工ニューロンと連結線によって連結される。ここで、連結線は連結加重値を有する。
自然語処理モデルに入力データが入力されれば、前方演算が実行されて出力レイヤ730で出力値が生成される。より具体的に、入力データは、入力レイヤ710→隠れレイヤ720→出力レイヤ730の方向に伝えられながら、連結加重値と乗算されたり、足し算される。そのため、出力レイヤ730で出力値が生成され得る。
学習装置は、エラー逆伝播学習(backpropagation learning)によって自然語処理モデルを学習させ得る。エラー逆伝播学習は、基準値と出力値との間のエラーを算出し、エラーをニューラルネットワーク700の出力レイヤ730→隠れレイヤ720→入力レイヤ710の方向に伝播して、エラーを減らす方向に連結加重値をアップデートする方法である。
一例として、文章ベクトル「Searching」「S」...「Franch」「F」「r」「a」「n」「c」「h」...「recipe」...「i」「p」「e」が自然語処理モデルに入力されると仮定する。また、基準確率が基準値として自然語処理モデルに入力されると仮定する。ここで、基準確率は、予め知っている値である。自然語処理モデルは、入力された文章ベクトルを前方演算して出力値を生成する。学習装置は、出力値と基準確率の間の差を示すエラーを算出する。学習装置は、エラーを出力レイヤ730→隠れレイヤ720→入力レイヤ710の方向に伝播し、エラーを減らす方向に連結加重値をアップデートする。学習装置は、前方演算及びエラー逆伝播学習を繰り返し行って自然語処理モデルを学習させることができる。
また、学習装置は、学習過程で「Franch」と「French」が同一のドキュメント(例えば、オンラインニュースの記事)にあるか否か及び/又は「Franch」が「French」に表現された場合があるか否かなどを決定する。「Franch」と「French」が同一のドキュメントにあったり、「Franch」が「French」に表現されたりもする場合、学習装置は、自然語処理モデルが「Franch」に対する結合ベクトルから「French」に対する結合ベクトルが予測されるよう、自然語処理モデルを学習させることができる。相違に表現すれば、学習装置は、自然語処理モデルが「Franch」を「French」に認識するように自然語処理モデルを学習させ得る。
自然語処理モデルは、再帰的ニューラルネットワーク(Recurrent NN、RNN)基盤モデルであってもよい。以下、図8及び図9を参照しながら、RNNについて説明する。
図8を参照すると、再帰的ニューラルネットワーク(RNN)800は、互いに異なる時間区間で隠れノードの間に再帰的連結があるニューラルネットワークである。一般的なニューラルネットワークとは異なって、RNN800は、任意の入力シーケンスを処理する内部メモリを用いてもよい。以前の時間区間810における隠れノードの出力は現在の時間区間820における隠れノードに連結される。現在の時間区間820における隠れノードの出力は次の時間区間830における隠れノードに連結される。
一例として、以前の時間区間810における第1隠れノード811、現在の時間区間820における第2隠れノード821、及び次の時間区間830における第3隠れノード831は互いに図9に示すように連結されている。図9を参照すると、第1隠れノード811の出力は第2隠れノード821に入力され、第2隠れノード821の出力は第3隠れノード831に入力される。
学習装置は、RNN800の出力値と基準確率との間の差を示すエラーを算出して、BPTT(Back−Propagation Through Time)によってエラーを逆伝播して自然語処理モデルを学習させることができる。
実現によって、自然語処理モデルは、CNN(Convolutional Neural Network)基盤モデルであってもよい。
図7〜図9を参照して説明した学習過程において、学習された自然語処理モデルは「Franch」を「French」に認識する。そのため、学習された自然語処理モデルは、正確に音声認識されていない「Where is a Franch restaurant?」の意図情報を「French restaurantに対する検索」として決定する。
図10は、一実施形態に係る自然語処理方法を説明するためのフローチャートである。
一実施形態に係る自然語処理方法は、自然語処理装置によって実行される。
図10を参照すると、自然語処理装置は、音声認識された文章データのワードをワードベクトルに変換する(S1010)。
自然語処理装置は、文章データのキャラクターをキャラクターベクトルに変換する(S1020)。
自然語処理装置は、ワードベクトルとキャラクターベクトルに基づいて文章データに対する文章ベクトルを生成する(S1030)。
自然語処理装置は、文章ベクトルに基づいて文章データの意図情報を決定する(S1040)。
図1〜図9を参照して記述された事項は、図10に基づいて記述された事項に適用され得るため、詳細な説明は省略する。
図11は、一実施形態に係る学習方法を説明するためのフローチャートである。一実施形態に係る学習方法は、学習装置によって実行される。図11を参照すると、学習装置は、文章データのワードにノイズを適用して変更ワードを生成する(S1110)。ここで、文章データは、学習データとして学習装置に入力される。
学習装置は、変更ワード及びノイズが適用されていない他のワードをワードベクトルに変換する(S1120)。
学習装置は、変更ワードのキャラクター及びノイズが適用されていない他のワードのキャラクターをキャラクターベクトルに変換する(S1130)。
学習装置は、ワードベクトルとキャラクターベクトルに基づいて文章ベクトルを生成する(S1140)。
図1〜図10を参照して記述された事項は、図11に基づいて記述された事項に適用され得るため、詳細な説明は省略する。
図12は、一実施形態に係る自然語処理装置の他の一例を説明するための図である。図12を参照すると、一実施形態に係る自然語処理装置1200は、コントローラ1210及びメモリ1220を含む。
上記で説明した音声認識器及び/又は自然語分析器はコントローラ1210によって実現される。
例えば、コントローラ1210は、音声認識された文章データのワードをワードベクトルに変換する。コントローラ1210は、文章データのキャラクターをキャラクターベクトルに変換する。コントローラ1210は、ワードベクトルとキャラクターベクトルに基づいて文章データに対する文章ベクトルを生成する。コントローラ1210は、文章ベクトルに基づいて文章データの意図情報を決定する。
メモリ1220は、コントローラ1210の動作に関する少なくとも1つの命令語及び/又は自然語処理モデルを格納する。
図1〜図11を参照して記述された事項は、図12に基づいて記述された事項に適用され得るため、詳細な説明は省略する。
図13は、一実施形態に係る学習装置を説明するための図である。図13を参照すると、一実施形態に係る学習装置1300は、コントローラ1310及びメモリ1320を含む。
図5及び図6を参照して説明した、ノイズ適用部、ワード埋込部、キャラクター埋込部、及び/又は結合部はコントローラ1310によって実現される。
例えば、コントローラ1310は、文章データ内のワードにノイズを適用して変更ワードを生成する。コントローラ1310は、変更ワード及びノイズが適用されていない他のワードをワードベクトルに変換する。コントローラ1310は、変更ワードのキャラクター及びノイズが適用されていない他のワードのキャラクターをキャラクターベクトルに変換する。コントローラ1310は、ワードベクトルと前記キャラクターベクトルに基づいて文章ベクトルを生成する。
メモリ1320は、コントローラ1310の動作に関する少なくとも1つの命令語を格納する。
図1〜図12を参照して記述された事項は、図13に基づいて記述された事項に適用され得るため、詳細な説明は省略する。
実施形態に係る方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技の術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果を達成することができる。
したがって、他の具現、他の実施形態及び請求範囲と均等なものも後述する請求範囲に属する。
Claims (15)
- 音声認識により認識された文章データのワードをワードベクトルに変換するステップと、
前記文章データのキャラクターをキャラクターベクトルに変換するステップと、
前記ワードベクトルと前記キャラクターベクトルに基づいて文章ベクトルを生成するステップと、
前記文章ベクトルに基づいて前記文章データの意図情報を決定するステップと、
を含む自然語処理方法。 - 前記文章ベクトルを生成するステップは、
前記ワードそれぞれに対するワードベクトルと前記ワードのキャラクターそれぞれに対するキャラクターベクトルを連結して前記ワードそれぞれに対する結合ベクトルを生成するステップと、
前記ワードそれぞれに対する結合ベクトルを連結して前記文章ベクトルを生成するステップと、
を含む、請求項1に記載の自然語処理方法。 - 前記ワードをワードベクトルに変換するステップは、前記ワードに標識されていない(unlabeled)ワードがある場合、前記標識されていないワードに該当するワードを未知(unknown)に対応するベクトルに変換するステップを含む、請求項1に記載の自然語処理方法。
- 前記意図情報を決定するステップは、
前記文章ベクトルから決定された複数の候補意図情報それぞれに対する確率を算出するステップと、
前記複数の候補意図情報それぞれの確率に基づいて前記複数の候補意図情報のうち前記意図情報を決定するステップと、
を含む、請求項1に記載の自然語処理方法。 - 前記意図情報を決定するステップは、
前記文章データ内のエラーワードに対する結合ベクトルに基づいて、前記エラーワードに対応する対象ワードを決定するステップと、
前記エラーワードを前記対象ワードとして認識するステップと、
を含み、
前記エラーワードに対する結合ベクトルは、前記エラーワードに対するワードベクトルと前記エラーワードのキャラクターそれぞれに対するキャラクターベクトルが連結して生成される、請求項1に記載の自然語処理方法。 - 前記エラーワードに対するワードベクトルは、前記エラーワードが標識されていないワードである場合、未知に対応するベクトルである、請求項5に記載の自然語処理方法。
- 前記意図情報は、前記文章ベクトルが入力された自然語処理モデルによって生成される、請求項1に記載の自然語処理方法。
- 前記自然語処理モデルは、第1ワードにノイズが適用されて生成された第2ワードを含む学習データが入力された場合、前記第2ワードを前記第1ワードとして認識するように学習される、請求項7に記載の自然語処理方法。
- 前記第2ワードは、前記第1ワードのキャラクターのうち一部が他のキャラクターに変更されたり、前記第1ワードに前記他のキャラクターが追加されて生成される、請求項8に記載の自然語処理方法。
- 音声信号を受信するステップと、
前記音声信号から特徴を抽出するステップと、
音響モデルによって前記特徴から音素シーケンスを認識するステップと、
言語モデルによって前記音素シーケンスからワードを認識して前記文章データを生成するステップと、
をさらに含む、請求項1に記載の自然語処理方法。 - コントローラと、
前記コントローラによって実行可能な少なくとも1つの命令語を含むメモリと、
を含み、
前記少なくとも1つの命令語が前記コントローラで実行されれば、前記コントローラは、文章データのワードにノイズを適用して変更ワードを生成し、前記変更ワード及び前記ノイズが適用されていない他のワードをワードベクトルに変換し、前記変更ワードのキャラクター及び前記他のワードのキャラクターをキャラクターベクトルに変換し、前記ワードベクトルと前記キャラクターベクトルに基づいて文章ベクトルを生成する学習装置。 - 前記コントローラは、
前記変更ワードに対するワードベクトルと前記変更ワードのキャラクターそれぞれに対するキャラクターベクトルを連結して前記変更ワードに対する結合ベクトルを生成し、
前記他のワードに対するワードベクトルと前記他のワードのキャラクターそれぞれに対するキャラクターベクトルを連結して前記他のワードに対する結合ベクトルを生成し、
前記変更ワードに対する結合ベクトルと前記他のワードに対する結合ベクトルを連結して前記文章ベクトルを生成する、請求項11に記載の学習装置。 - 前記コントローラは、予め決定した基準に応じて、前記ワードのキャラクターのうち変更するキャラクターを決定し、予め決定された辞典から他のキャラクターを選択し、前記決定されたキャラクターを前記他のキャラクターに代替し、
前記予め決定した基準は、前記ワードの長さ、キャラクター変更個数、及び変更位置に基づいて決定された基準である、請求項11に記載の学習装置。 - 前記変更ワードは、前記ワードのキャラクターを他のキャラクターに変更したり、前記キャラクターに前記他のキャラクターを追加して生成され、
前記変更ワードに対するワードベクトルは、前記変更ワードが標識されていないワードである場合、未知に対応するベクトルである、請求項11に記載の学習装置。 - 前記コントローラは、前記文章データ内のワードのうち前記ワードを任意に選択する、請求項11に記載の学習装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2016-0152712 | 2016-11-16 | ||
KR1020160152712A KR20180055189A (ko) | 2016-11-16 | 2016-11-16 | 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018081298A true JP2018081298A (ja) | 2018-05-24 |
Family
ID=59631551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017179163A Pending JP2018081298A (ja) | 2016-11-16 | 2017-09-19 | 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10540964B2 (ja) |
EP (1) | EP3324405A1 (ja) |
JP (1) | JP2018081298A (ja) |
KR (1) | KR20180055189A (ja) |
CN (1) | CN108073574A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021043530A (ja) * | 2019-09-06 | 2021-03-18 | 東京海上日動火災保険株式会社 | 入力支援方法、入力支援システム、及びプログラム |
JP2021108115A (ja) * | 2019-12-27 | 2021-07-29 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体 |
JP2021114277A (ja) * | 2020-01-19 | 2021-08-05 | ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド | 情報処理方法、装置及び記憶媒体 |
JP2022529664A (ja) * | 2019-04-22 | 2022-06-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ランダム化された意図ベクトル近接性からの意図認識モデルの作成 |
WO2023073887A1 (ja) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395641B2 (en) * | 2017-02-08 | 2019-08-27 | International Business Machines Corporation | Modifying a language conversation model |
US10515625B1 (en) * | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
US10572585B2 (en) * | 2017-11-30 | 2020-02-25 | International Business Machines Coporation | Context-based linguistic analytics in dialogues |
US11030414B2 (en) * | 2017-12-26 | 2021-06-08 | The Allen Institute For Artificial Intelligence | System and methods for performing NLP related tasks using contextualized word representations |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
CN109033156B (zh) * | 2018-06-13 | 2021-06-15 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置及终端 |
CN110619050B (zh) * | 2018-06-20 | 2023-05-09 | 华为技术有限公司 | 意图识别方法及设备 |
US10831997B2 (en) * | 2018-08-09 | 2020-11-10 | CloudMinds Technology, Inc. | Intent classification method and system |
CN109241259B (zh) * | 2018-08-24 | 2021-01-05 | 国网江苏省电力有限公司苏州供电分公司 | 基于er模型的自然语言查询方法、装置及系统 |
US11481558B2 (en) | 2018-09-12 | 2022-10-25 | Samsung Electroncis Co., Ltd. | System and method for a scene builder |
CN110929508B (zh) * | 2018-09-20 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 词向量的生成方法、装置和系统 |
KR102143745B1 (ko) * | 2018-10-11 | 2020-08-12 | 주식회사 엔씨소프트 | 음절 기반의 벡터를 이용한 한글 오류 보정 방법 및 한글 오류 보정 시스템 |
EP3637428A1 (en) * | 2018-10-12 | 2020-04-15 | Siemens Healthcare GmbH | Natural language sentence generation for radiology reports |
US10978046B2 (en) * | 2018-10-15 | 2021-04-13 | Midea Group Co., Ltd. | System and method for customizing portable natural language processing interface for appliances |
US11341207B2 (en) | 2018-12-10 | 2022-05-24 | Ebay Inc. | Generating app or web pages via extracting interest from images |
US10777191B2 (en) * | 2018-12-30 | 2020-09-15 | International Business Machines Corporation | Visually exploring and prioritizing discordant conversations with conversational bots |
CN111489754B (zh) * | 2019-01-28 | 2024-06-25 | 国家电网有限公司客户服务中心 | 一种基于智能语音技术的话务数据分析方法 |
US10977445B2 (en) * | 2019-02-01 | 2021-04-13 | International Business Machines Corporation | Weighting features for an intent classification system |
US10937416B2 (en) * | 2019-02-01 | 2021-03-02 | International Business Machines Corporation | Cross-domain multi-task learning for text classification |
CN109960804B (zh) * | 2019-03-21 | 2023-05-02 | 江西风向标教育科技有限公司 | 一种题目文本句子向量生成方法及装置 |
CN110287285B (zh) * | 2019-05-31 | 2023-06-16 | 平安科技(深圳)有限公司 | 一种问题意图识别方法、装置、计算机设备及存储介质 |
FR3098000B1 (fr) * | 2019-06-27 | 2022-05-13 | Ea4T | Procédé et dispositif d’obtention d’une réponse à partir d’une question orale posée à une interface homme-machine. |
JP2022547482A (ja) * | 2019-09-04 | 2022-11-14 | ブレイン テクノロジーズ インコーポレイテッド | コンピュータ画面表示用のリアルタイムモーフィングインターフェース |
US12086541B2 (en) | 2019-09-04 | 2024-09-10 | Brain Technologies, Inc. | Natural query completion for a real-time morphing interface |
CN110633470A (zh) * | 2019-09-17 | 2019-12-31 | 北京小米智能科技有限公司 | 命名实体识别方法、装置及存储介质 |
KR20210042707A (ko) | 2019-10-10 | 2021-04-20 | 삼성전자주식회사 | 음성 처리 방법 및 장치 |
US11538465B1 (en) * | 2019-11-08 | 2022-12-27 | Suki AI, Inc. | Systems and methods to facilitate intent determination of a command by grouping terms based on context |
US11217227B1 (en) | 2019-11-08 | 2022-01-04 | Suki AI, Inc. | Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain |
CN112906370B (zh) * | 2019-12-04 | 2022-12-20 | 马上消费金融股份有限公司 | 意图识别模型训练方法、意图识别方法及相关装置 |
US11455555B1 (en) | 2019-12-31 | 2022-09-27 | Meta Platforms, Inc. | Methods, mediums, and systems for training a model |
CN111241832B (zh) * | 2020-01-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
CN113139561B (zh) * | 2020-01-17 | 2024-05-03 | Tcl科技集团股份有限公司 | 一种垃圾分类方法、装置、终端设备及存储介质 |
CN111081219A (zh) * | 2020-01-19 | 2020-04-28 | 南京硅基智能科技有限公司 | 一种端到端的语音意图识别方法 |
US11626106B1 (en) * | 2020-02-25 | 2023-04-11 | Amazon Technologies, Inc. | Error attribution in natural language processing systems |
CN111666469B (zh) * | 2020-05-13 | 2023-06-16 | 广州国音智能科技有限公司 | 语句库构建方法、装置、设备和存储介质 |
KR20210142891A (ko) | 2020-05-19 | 2021-11-26 | 삼성에스디에스 주식회사 | 자연어 처리 모델을 맞춤화하기 위한 방법 및 장치 |
CN111539223B (zh) * | 2020-05-29 | 2023-08-18 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN111666755B (zh) * | 2020-06-24 | 2024-10-18 | 深圳前海微众银行股份有限公司 | 一种复述句识别的方法及装置 |
CN111951805B (zh) * | 2020-07-10 | 2024-09-20 | 华为技术有限公司 | 一种文本数据处理方法及装置 |
CN111783434B (zh) * | 2020-07-10 | 2023-06-23 | 思必驰科技股份有限公司 | 提升回复生成模型抗噪能力的方法及系统 |
KR102236639B1 (ko) * | 2020-07-27 | 2021-04-06 | 주식회사 엔씨소프트 | 음절 기반의 벡터를 이용한 한글 오류 보정 방법 및 한글 오류 보정 시스템 |
CN111914551B (zh) * | 2020-07-29 | 2022-05-20 | 北京字节跳动网络技术有限公司 | 自然语言处理方法、装置、电子设备及存储介质 |
CN112017643B (zh) * | 2020-08-24 | 2023-10-31 | 广州市百果园信息技术有限公司 | 语音识别模型训练方法、语音识别方法及相关装置 |
US11862157B2 (en) * | 2021-02-24 | 2024-01-02 | Conversenow Ai | Automated ordering system |
CN112926306B (zh) * | 2021-03-08 | 2024-01-23 | 北京百度网讯科技有限公司 | 文本纠错方法、装置、设备以及存储介质 |
CN113342932B (zh) * | 2021-05-31 | 2024-04-19 | 北京明略软件系统有限公司 | 目标词向量的确定方法、装置、存储介质和电子装置 |
CN113254616B (zh) * | 2021-06-07 | 2021-10-19 | 佰聆数据股份有限公司 | 面向智能问答系统的句向量生成方法及系统 |
CN113407814B (zh) * | 2021-06-29 | 2023-06-16 | 抖音视界有限公司 | 文本搜索方法、装置、可读介质及电子设备 |
KR102606415B1 (ko) * | 2023-03-27 | 2023-11-29 | (주)유알피 | 딥러닝 기반 음성인식을 이용한 문맥 의도 인식 장치 및 방법 |
KR102552297B1 (ko) * | 2023-03-29 | 2023-07-06 | (주)유알피 | 딥러닝 기반 대화모델을 적용한 사용자 맞춤형 순화문장 생성방법 및 그 장치 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
WO2001084535A2 (en) | 2000-05-02 | 2001-11-08 | Dragon Systems, Inc. | Error correction in speech recognition |
JP2003295882A (ja) | 2002-04-02 | 2003-10-15 | Canon Inc | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
KR101163411B1 (ko) | 2007-03-19 | 2012-07-12 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 지각 모델을 사용한 스피치 개선 |
US8504374B2 (en) | 2009-02-02 | 2013-08-06 | Jerry Lee Potter | Method for recognizing and interpreting patterns in noisy data sequences |
US8223986B2 (en) | 2009-11-19 | 2012-07-17 | Apple Inc. | Electronic device and external equipment with digital noise cancellation and digital audio path |
US20120246133A1 (en) | 2011-03-23 | 2012-09-27 | Microsoft Corporation | Online spelling correction/phrase completion system |
US8892488B2 (en) | 2011-06-01 | 2014-11-18 | Nec Laboratories America, Inc. | Document classification with weighted supervised n-gram embedding |
US8929954B2 (en) | 2012-04-25 | 2015-01-06 | Kopin Corporation | Headset computer (HSC) as auxiliary display with ASR and HT input |
KR102332729B1 (ko) | 2014-07-28 | 2021-11-30 | 삼성전자주식회사 | 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치 |
JP6467893B2 (ja) | 2014-12-03 | 2019-02-13 | 日本電気株式会社 | 情報処理システム、情報処理方法、及び、プログラム |
KR102167719B1 (ko) | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
-
2016
- 2016-11-16 KR KR1020160152712A patent/KR20180055189A/ko not_active Application Discontinuation
-
2017
- 2017-05-18 US US15/598,966 patent/US10540964B2/en not_active Expired - Fee Related
- 2017-07-25 EP EP17182953.4A patent/EP3324405A1/en not_active Ceased
- 2017-07-27 CN CN201710626027.5A patent/CN108073574A/zh active Pending
- 2017-09-19 JP JP2017179163A patent/JP2018081298A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022529664A (ja) * | 2019-04-22 | 2022-06-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ランダム化された意図ベクトル近接性からの意図認識モデルの作成 |
JP7507788B2 (ja) | 2019-04-22 | 2024-06-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ランダム化された意図ベクトル近接性からの意図認識モデルの作成 |
JP2021043530A (ja) * | 2019-09-06 | 2021-03-18 | 東京海上日動火災保険株式会社 | 入力支援方法、入力支援システム、及びプログラム |
JP7216627B2 (ja) | 2019-09-06 | 2023-02-01 | 東京海上日動火災保険株式会社 | 入力支援方法、入力支援システム、及びプログラム |
JP2021108115A (ja) * | 2019-12-27 | 2021-07-29 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体 |
JP7079311B2 (ja) | 2019-12-27 | 2022-06-01 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 機械読解モデルのトレーニング方法、装置、電子機器及び記憶媒体 |
US11410084B2 (en) | 2019-12-27 | 2022-08-09 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training machine reading comprehension model, and storage medium |
JP2021114277A (ja) * | 2020-01-19 | 2021-08-05 | ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド | 情報処理方法、装置及び記憶媒体 |
JP7059326B2 (ja) | 2020-01-19 | 2022-04-25 | ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド | 情報処理方法、装置及び記憶媒体 |
US11475219B2 (en) | 2020-01-19 | 2022-10-18 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Method for processing information, and storage medium |
WO2023073887A1 (ja) * | 2021-10-28 | 2023-05-04 | 日本電気株式会社 | 情報処理システム、情報処理装置、情報処理方法、及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
KR20180055189A (ko) | 2018-05-25 |
US10540964B2 (en) | 2020-01-21 |
CN108073574A (zh) | 2018-05-25 |
EP3324405A1 (en) | 2018-05-23 |
US20180137855A1 (en) | 2018-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018081298A (ja) | 自然語処理方法及び装置と自然語処理モデルを学習する方法及び装置 | |
AU2019395322B2 (en) | Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping | |
AU2019347734B2 (en) | Conversational agent pipeline trained on synthetic data | |
JP6916264B2 (ja) | 切断アテンションに基づくリアルタイム音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
JP7051919B2 (ja) | ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 | |
US10963819B1 (en) | Goal-oriented dialog systems and methods | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
Kadyan et al. | Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system | |
KR20160059265A (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
Biswas et al. | Speech recognition using weighted finite-state transducers | |
KR102637025B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
Wang et al. | An Interactive Adversarial Reward Learning-Based Spoken Language Understanding System. | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
KR20240096898A (ko) | 격자 음성 교정 | |
JP6235922B2 (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
CN113112996A (zh) | 用于基于语音的音频和文本对齐的系统和方法 | |
Rasipuram et al. | Probabilistic lexical modeling and unsupervised training for zero-resourced ASR | |
Ikegami et al. | High performance personal adaptation speech recognition framework by incremental learning with plural language models | |
Rostami et al. | A Persian Wake Word Detection System Based on the Fine Tuning of A Universal Phone Decoder and Levenshtein Distance | |
Teshite et al. | Afan Oromo Speech‐Based Computer Command and Control: An Evaluation with Selected Commands | |
KR20240119458A (ko) | 다중 인공지능 음성 인식 모델 및 챗봇을 이용하여 인식 정확도가 개선된 음성 인식 처리 장치 및 그 동작 방법 | |
KR20240119459A (ko) | 자동 음성 인식 모델을 위한 음성 데이터 가공 처리 장치 및 그 동작 방법 | |
JP2013246224A (ja) | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム |