JP7150770B2 - 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム - Google Patents
対話方法、装置、コンピュータ可読記憶媒体、及びプログラム Download PDFInfo
- Publication number
- JP7150770B2 JP7150770B2 JP2020018248A JP2020018248A JP7150770B2 JP 7150770 B2 JP7150770 B2 JP 7150770B2 JP 2020018248 A JP2020018248 A JP 2020018248A JP 2020018248 A JP2020018248 A JP 2020018248A JP 7150770 B2 JP7150770 B2 JP 7150770B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- text
- word slot
- intent
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 34
- 230000002452 interceptive effect Effects 0.000 title claims description 25
- 238000012549 training Methods 0.000 claims description 31
- 230000007704 transition Effects 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 25
- 230000003993 interaction Effects 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Description
ータ可読記憶媒体、及びプログラムに関する。
認識すべき音声を第1テキストに変換することと、
前記第1テキストを語義解析モデルに入力し、第1テキストの意図情報とワードスロット情報を取得することと、
前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第1テキストに対応する交互情報を取得することと、を含む。
第1信頼度が最高である候補テキストを第2テキストとすることと、をさらに含む。
前記第1テキストを自然言語理解NLUモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第2信頼度を取得することと、
第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とすることと、
前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得することと、を含む。
前記第1テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力することと、
前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別することと、
前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路において、遷移先である次の1つの中間ノードを検索することと、
中間ノードにより交互情報をリターンすることと、を含む。
前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得することと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力することと、をさらに含む。
語義解析モデルにより前記トレーニングサンプルの意図情報を取得することと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定することと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することと、を含む。
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出することと、
前記各ワードスロット情報に基づいて、有限状態機械に含まれる初期ノード、中間ノード及び最終ノードを確定することと、
前記各ワードスロット情報に基づいて、各ノード間の遷移関係を確定することと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築することと、を含む。
認識すべき音声を第1テキストに変換する音声変換モジュールと、
前記第1テキストを語義解析モデルに入力し、第1テキストの意図情報とワードスロット情報を取得する意図情報・ワードスロット情報取得モジュールと、
前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第1テキストに対応する交互情報を取得する交互情報取得モジュールと、を備える。
前記第1テキストを自動音声認識ASRモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第1信頼度を取得する候補テキスト・信頼度取得モジュールと、
第1信頼度が最高である候補テキストを第2テキストとする第2テキスト取得モジュールと、をさらに備える。
前記第1テキストを自然言語理解NLUモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第2信頼度を取得する候補意図情報・信頼度取得サーブモジュールと、
第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とする第1テキスト意図情報取得サーブモジュールと、
前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得する第1ワードスロット情報取得サーブモジュールと、を備える。
前記第1テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力する意図情報・ワードスロット情報入力サーブモジュールと、
前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別する対話経路選別サーブモジュールと、
前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路において、遷移先である次の1つの中間ノードを検索する遷移ノード検索サーブモジュールと、
中間ノードにより交互情報をリターンする交互情報リターンサーブモジュールと、を備える。
前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得する第2ワードスロット情報取得サーブモジュールと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力する第2ワードスロット情報入力サーブモジュールと、をさらに備える。
語義解析モデルにより前記トレーニングサンプルの意図情報を取得するトレーニングサンプル意図情報取得モジュールと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定するワードスロット情報確定モジュールと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築する対話経路構築モジュールと、を備えるように構成される。
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出する情報抽出サーブモジュールと、
各ワードスロット情報に基づいて、有限状態機械が含む初期ノード、中間ノード及び最終ノードを確定するノード確定サーブモジュールと、
各ワードスロット情報に基づいて、各ノード間の遷移関係を確定する遷移関係確定サーブモジュールと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築する構築実行サーブモジュールと、を備える。
S201において、前記第1テキストを自動音声認識ASRモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第1信頼度を取得する。
S202において、第1信頼度が最高である候補テキストを前記第2テキストとする。
S1021において、前記第1テキストを自然言語理解NLUモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第2信頼度を取得する。
S1022において、第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とする。
S1023において、前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得する。
S1031において、前記第1テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力する。
S1032において、前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別する。
S1033において、前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路の中で遷移先である次の1つの中間ノードを検索する。
S1034において、中間ノードにより交互情報をリターンする。
S1035において、前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得する。
S1036において、前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力する。
S301において、語義解析モデルにより前記トレーニングサンプルの意図情報を取得する。
S302において、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定する。
S303において、意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築する。
S3031において、語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出する。
S3032において、前記各ワードスロット情報に基づいて、有限状態機械に含まれる初期ノード、中間ノード及び最終ノードを確定する。
S3033において、前記各ワードスロット情報に基づいて、各ノード間の遷移関係を確定する。
S3034において、各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築する。
初期ノード0~中間ノード4は、ワードスロット情報に「時間」と「場所」があることを示し、
初期ノード0~中間ノード2は、ワードスロット情報に「時間」があるが、「場所」がないことを示し、中間ノード2~中間ノード7は、交互情報を生成し、「場所」を問い合わせることを示し、中間ノード7~中間ノード4は、ワードスロット情報に「時間」と「場所」があることを示し、
初期ノード0~中間ノード3は、ワードスロット情報に「時間」がなく、「場所」があることを示し、中間ノード3~中間ノード6は、交互情報を生成し、「時間」を問い合わせることを示し、中間ノード6~中間ノード4は、ワードスロット情報に「時間」と「場所」があることを示し、
初期ノード0~中間ノード1は、ワードスロット情報に「時間」と「場所」がないことを示し、中間ノード1~中間ノード5は、交互情報を生成し、「時間」を問い合わせることを示し、中間ノード5~中間ノード2は、ワードスロット情報に「時間」があるが、「場所」がないことを示し、中間ノード2~中間ノード7は、交互情報を生成し、「場所」を問い合わせることを示し、中間ノード7~中間ノード4は、ワードスロット情報に「時間」と「場所」があることを示す。
認識すべき音声を第1テキストに変換するための音声変換モジュール901と、
前記第1テキストを語義解析モデルに入力し、第1テキストの意図情報とワードスロット情報を取得するための意図情報・ワードスロット情報取得モジュール902と、
前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第1テキストに対応する交互情報を取得するための交互情報取得モジュール903と、を備える。
前記第1テキストを自動音声認識ASRモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第1信頼度を取得するための候補テキスト・信頼度取得モジュール1001と、
第1信頼度が最高である候補テキストを第2テキストとするための第2テキスト取得モジュール1002と、をさらに備える。
前記第1テキストを自然言語理解NLUモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第2信頼度を取得するための候補意図情報・信頼度取得サーブモジュール9021と、
第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とするための第1テキスト意図情報サーブモジュール9022と、
前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得するための第1ワードスロット情報取得サーブモジュール9023と、を備える。
前記第1テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力するための意図情報・ワードスロット情報入力サーブモジュール9031と、
前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別するための対話経路選別サーブモジュール9032と、
前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路において、遷移先である次の1つの中間ノードを検索するための遷移ノード検索サーブモジュール9033と、
中間ノードにより交互情報をリターンするための交互情報リターンサーブモジュール9034と、を備える。
前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得するための第2ワードスロット情報取得サーブモジュール9035と、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力するための第2ワードスロット情報入力サーブモジュール9036と、をさらに備える。
語義解析モデルにより前記トレーニングサンプルの意図情報を取得するためのトレーニングサンプル意図情報取得モジュール1401と、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定するためのワードスロット情報確定モジュール1402と、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築するための対話経路構築モジュール1403と、を備えるように構成される。
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出するための情報抽出サーブモジュール14031と、
各ワードスロット情報に基づいて、有限状態機械が含む初期ノード、中間ノード及び最終ノードを確定するためのノード確定サーブモジュール14032と、
各ワードスロット情報に基づいて、各ノード間の遷移関係を確定するための遷移関係確定サーブモジュール14033と、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築するための構築実行サーブモジュール14034と、を備える。
メモリ1610、プロセッサ1620、および通信インターフェース1630が独立して実現される場合、メモリ1610、プロセッサ1620、および通信インターフェース1630は、バスによって相互接続して相互通信を行うことができる。前記バスは、インダストリスタンダードアーキテクチャ(ISA、Industry Standard Architecture)バス、外部デバイス相互接続(PCI、Peripheral ComponentInterconnect)バス、又は拡張インダストリスタンダードアーキテクチャ(EISA、Extended Industry Standard Component)バス等であってもよい。前記バスは、アドレスバス、データバス、制御バス等として分けられることが可能である。表示の便宜上、図16に1本の太線のみで表示するが、バスが1つ又は1種類のみであることを意味しない。
Claims (15)
- コンピュータによって実行される対話方法であって、
自動音声認識ASRモデル中の音響モデルにより、認識すべき音声を第1テキストに変換することと、
前記第1テキストを前記自動音声認識ASRモデル中の言語モデルに入力して、複数の候補テキスト及び前記複数の候補テキストのそれぞれに対応する第1信頼度を取得することと、
第1信頼度が最高である候補テキストを第2テキストとすることと、
前記第1テキストを語義解析モデルに入力して、複数の候補意図情報及び前記複数の候補意図情報のそれぞれに対応する第2信頼度を取得することと、
第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とすることと、
前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得することと、
前記第1テキストの意図情報及びワードスロット情報を有限状態機械に入力して、前記第1テキストに対応する交互情報を取得することと、
を含む、
ことを特徴とする対話方法。 - 前記語義解析モデルは、自然言語理解NLUモデルである、
ことを特徴とする請求項1に記載の対話方法。 - 前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力して、前記第1テキストに対応する交互情報を取得することは、
前記第1テキストの意図情報及びワードスロット情報を前記有限状態機械の初期ノードに入力することと、
前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別することと、
前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路から遷移先である次の1つの中間ノードを検索することと、
中間ノードにより交互情報をリターンさせることと、
を含む、
ことを特徴とする請求項1に記載の対話方法。 - 前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力して、前記第1テキストに対応する交互情報を取得することは、
前記交互情報に対して応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得することと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力することと、をさらに含む、
ことを特徴とする請求項1に記載の対話方法。 - 前記有限状態機械の構築は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得することと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定することと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することと、を含む、
ことを特徴とする請求項1に記載の対話方法。 - 前記意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することは、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出することと、
前記各ワードスロット情報に基づいて、有限状態機械に含まれる初期ノード、中間ノード及び最終ノードを確定することと、
前記各ワードスロット情報に基づいて、各ノード間の遷移関係を確定することと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築することと、を含む、
ことを特徴とする請求項5に記載の対話方法。 - 自動音声認識ASRモデル中の音響モデルにより、認識すべき音声を第1テキストに変換する音声変換モジュールと、
前記第1テキストを前記自動音声認識ASRモデル中の言語モデルに入力して、複数の候補テキスト及び前記複数の候補テキストのそれぞれに対応する第1信頼度を取得する候補テキスト・信頼度取得モジュールと、
第1信頼度が最高である候補テキストを第2テキストとする第2テキスト取得モジュールと、
前記第1テキストを語義解析モデルに入力して、複数の候補意図情報及び前記複数の候補意図情報のそれぞれに対応する第2信頼度を取得する候補意図情報・信頼度取得サーブモジュールと、
第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とする第1テキスト意図情報取得サーブモジュールと、
前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得する第1ワードスロット情報取得サーブモジュールと、
前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力して、前記第1テキストに対応する交互情報を取得する交互情報取得モジュールと、
を備える、
ことを特徴とする対話装置。 - 語義解析モデルは、自然言語理解NLUモデルである、
ことを特徴とする請求項7に記載の対話装置。 - 前記交互情報取得モジュールは、
前記第1テキストの意図情報及びワードスロット情報を前記有限状態機械の初期ノードに入力する意図情報・ワードスロット情報入力サーブモジュールと、
前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別する対話経路選別サーブモジュールと、
前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路から遷移先である次の1つの中間ノードを検索する遷移ノード検索サーブモジュールと、
中間ノードにより交互情報をリターンさせる交互情報リターンサーブモジュールと、
を備える、
ことを特徴とする請求項7に記載の対話装置。 - 前記交互情報取得モジュールは、
前記交互情報に対して応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得する第2ワードスロット情報取得サーブモジュールと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力する第2ワードスロット情報入力サーブモジュールと、をさらに備える、
ことを特徴とする請求項7に記載の対話装置。 - 前記有限状態機械は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得するトレーニングサンプル意図情報取得モジュールと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定するワードスロット情報確定モジュールと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築する対話経路構築モジュールと、を備えるように構成される、
ことを特徴とする請求項7に記載の対話装置。 - 前記対話経路構築モジュールは、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出する情報抽出サーブモジュールと、
各ワードスロット情報に基づいて、有限状態機械が含む初期ノード、中間ノード及び最終ノードを確定するノード確定サーブモジュールと、
各ワードスロット情報に基づいて、各ノード間の遷移関係を確定する遷移関係確定サーブモジュールと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築する構築実行サーブモジュールと、を備える、
ことを特徴とする請求項11に記載の対話装置。 - 1つ又は複数のプロセッサと、
1つ又は複数のプログラムを記憶する記憶装置と、を備え、
前記1つ又は複数のプロセッサは、前記1つ又は複数のプログラムを実行する場合、請求項1~6のいずれか一項に記載の対話方法を実行させる、
ことを特徴とする対話装置。 - コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
当該コンピュータプログラムがプロセッサに実行される場合、請求項1~6のいずれか一項に記載の対話方法を実行させる、
ことを特徴とするコンピュータ可読記憶媒体。 - コンピュータにおいて、プロセッサにより実行される場合、請求項1~6のいずれか一項に記載の対話方法を実現することを特徴とするプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910666945.X | 2019-07-23 | ||
CN201910666945.XA CN110377716B (zh) | 2019-07-23 | 2019-07-23 | 对话的交互方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021018797A JP2021018797A (ja) | 2021-02-15 |
JP7150770B2 true JP7150770B2 (ja) | 2022-10-11 |
Family
ID=68255023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020018248A Active JP7150770B2 (ja) | 2019-07-23 | 2020-02-05 | 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11322153B2 (ja) |
JP (1) | JP7150770B2 (ja) |
CN (1) | CN110377716B (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909541A (zh) * | 2019-11-08 | 2020-03-24 | 杭州依图医疗技术有限公司 | 指令生成方法、系统、设备和介质 |
CN110706707B (zh) * | 2019-11-13 | 2020-09-18 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法、装置、设备和计算机可读存储介质 |
CN111104495B (zh) * | 2019-11-19 | 2023-07-28 | 深圳追一科技有限公司 | 基于意图识别的信息交互方法、装置、设备和存储介质 |
CN110910866B (zh) * | 2019-11-28 | 2022-07-29 | 出门问问创新科技有限公司 | 一种对话处理方法、设备及计算机可读存储介质 |
CN111198937B (zh) * | 2019-12-02 | 2023-06-30 | 泰康保险集团股份有限公司 | 对话生成及装置、计算机可读存储介质、电子设备 |
CN113032661A (zh) * | 2019-12-09 | 2021-06-25 | 北京搜狗科技发展有限公司 | 一种信息交互方法及装置 |
CN111104502A (zh) * | 2019-12-24 | 2020-05-05 | 携程计算机技术(上海)有限公司 | 外呼系统的对话管理方法、系统、电子设备和存储介质 |
CN111524533B (zh) * | 2020-03-02 | 2023-12-08 | 北京声智科技有限公司 | 语音操作方法、装置、电子设备及存储介质 |
CN111488447B (zh) * | 2020-04-16 | 2023-06-13 | 上海茂声智能科技有限公司 | 一种意图节点跳转方法、装置和跳转设备 |
CN111597808B (zh) * | 2020-04-24 | 2023-07-25 | 北京百度网讯科技有限公司 | 仪表盘绘制处理方法、装置、电子设备和存储介质 |
CN111612482A (zh) * | 2020-05-22 | 2020-09-01 | 云知声智能科技股份有限公司 | 对话管理方法、装置和设备 |
CN111710336B (zh) * | 2020-06-05 | 2023-05-26 | 平安科技(深圳)有限公司 | 语音的意图识别方法、装置、计算机设备及存储介质 |
CN111782965B (zh) * | 2020-06-29 | 2023-08-11 | 北京百度网讯科技有限公司 | 意图推荐方法、装置、设备及存储介质 |
CN111881271A (zh) * | 2020-07-08 | 2020-11-03 | 泰康保险集团股份有限公司 | 一种实现自动对话的方法和装置 |
CN112148847B (zh) * | 2020-08-27 | 2024-03-12 | 出门问问创新科技有限公司 | 一种语音信息的处理方法及装置 |
CN112017647B (zh) * | 2020-09-04 | 2024-05-03 | 深圳海冰科技有限公司 | 一种结合语义的语音识别方法、装置和系统 |
CN112015880B (zh) * | 2020-10-23 | 2021-03-30 | 和美(深圳)信息技术股份有限公司 | 智能机器人的人机对话流程自动流转方法及系统 |
CN112015881B (zh) * | 2020-10-23 | 2021-02-19 | 和美(深圳)信息技术股份有限公司 | 智能机器人的人机对话流程自动切换方法及系统 |
CN112926313B (zh) * | 2021-03-10 | 2023-08-15 | 新华智云科技有限公司 | 一种槽位信息的提取方法与系统 |
CN113228167B (zh) * | 2021-03-22 | 2022-09-09 | 华为技术有限公司 | 一种语音控制方法及装置 |
CN113157939A (zh) * | 2021-03-26 | 2021-07-23 | 联想(北京)有限公司 | 一种信息处理方法及装置 |
JP7295445B2 (ja) * | 2021-06-10 | 2023-06-21 | 富士通クライアントコンピューティング株式会社 | 情報処理装置およびプログラム |
CN113362827B (zh) * | 2021-06-24 | 2024-02-13 | 上海风和雨网络科技有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN113793597A (zh) * | 2021-09-15 | 2021-12-14 | 云知声智能科技股份有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN114265505A (zh) * | 2021-12-27 | 2022-04-01 | 中国电信股份有限公司 | 人机交互处理方法、装置、存储介质及电子设备 |
CN114676244B (zh) * | 2022-05-27 | 2023-01-24 | 深圳市人马互动科技有限公司 | 信息处理方法、信息处理装置以及计算机可读存储介质 |
CN115497465A (zh) * | 2022-09-06 | 2022-12-20 | 平安银行股份有限公司 | 语音交互方法、装置、电子设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004334193A (ja) | 2003-05-01 | 2004-11-25 | Microsoft Corp | 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム |
JP2008512789A (ja) | 2004-09-10 | 2008-04-24 | マイクロソフト コーポレーション | 機械学習 |
JP2008234443A (ja) | 2007-03-22 | 2008-10-02 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
JP2010048980A (ja) | 2008-08-20 | 2010-03-04 | Universal Entertainment Corp | 自動会話システム、並びに会話シナリオ編集装置 |
US20100299136A1 (en) | 2007-10-11 | 2010-11-25 | Agency For Science, Technology And Research | Dialogue System and a Method for Executing a Fully Mixed Initiative Dialogue (FMID) Interaction Between a Human and a Machine |
JP2015133047A (ja) | 2014-01-15 | 2015-07-23 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2016067418A1 (ja) | 2014-10-30 | 2016-05-06 | 三菱電機株式会社 | 対話制御装置および対話制御方法 |
CN105589848A (zh) | 2015-12-28 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 对话管理方法和装置 |
US20160202957A1 (en) | 2015-01-13 | 2016-07-14 | Microsoft Technology Licensing, Llc | Reactive agent development environment |
CN105845137A (zh) | 2016-03-18 | 2016-08-10 | 中国科学院声学研究所 | 一种语音对话管理系统 |
US20180143802A1 (en) | 2016-11-24 | 2018-05-24 | Samsung Electronics Co., Ltd. | Method for processing various inputs, and electronic device and server for the same |
CN108804536A (zh) | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 人机对话与策略生成方法、设备、系统及存储介质 |
CN110222162A (zh) | 2019-05-10 | 2019-09-10 | 天津中科智能识别产业技术研究院有限公司 | 一种基于自然语言处理和知识图谱的智能问答方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8027745B1 (en) * | 2005-03-01 | 2011-09-27 | Electrical Controls, Inc. | Non-linear, animated, interactive assembly guide and method for controlling production |
DE112014005354T5 (de) * | 2013-11-25 | 2016-08-04 | Mitsubishi Electric Corporation | Dialog-management-system und dialog-management-verfahren |
CN108885870A (zh) | 2015-12-01 | 2018-11-23 | 流利说人工智能公司 | 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法 |
CN107463301A (zh) * | 2017-06-28 | 2017-12-12 | 北京百度网讯科技有限公司 | 基于人工智能的对话系统构建方法、装置、设备及计算机可读存储介质 |
US10503468B2 (en) * | 2017-12-08 | 2019-12-10 | Amazon Technologies, Inc. | Voice enabling applications |
CN108197115B (zh) * | 2018-01-26 | 2022-04-22 | 上海智臻智能网络科技股份有限公司 | 智能交互方法、装置、计算机设备和计算机可读存储介质 |
KR102508863B1 (ko) * | 2018-03-19 | 2023-03-10 | 삼성전자 주식회사 | 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버 |
CN109003605B (zh) * | 2018-07-02 | 2020-04-21 | 北京百度网讯科技有限公司 | 智能语音交互处理方法、装置、设备及存储介质 |
KR20200013152A (ko) * | 2018-07-18 | 2020-02-06 | 삼성전자주식회사 | 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법 |
-
2019
- 2019-07-23 CN CN201910666945.XA patent/CN110377716B/zh active Active
-
2020
- 2020-02-05 JP JP2020018248A patent/JP7150770B2/ja active Active
- 2020-02-21 US US16/797,497 patent/US11322153B2/en active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004334193A (ja) | 2003-05-01 | 2004-11-25 | Microsoft Corp | 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム |
JP2008512789A (ja) | 2004-09-10 | 2008-04-24 | マイクロソフト コーポレーション | 機械学習 |
JP2008234443A (ja) | 2007-03-22 | 2008-10-02 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
US20100299136A1 (en) | 2007-10-11 | 2010-11-25 | Agency For Science, Technology And Research | Dialogue System and a Method for Executing a Fully Mixed Initiative Dialogue (FMID) Interaction Between a Human and a Machine |
JP2010048980A (ja) | 2008-08-20 | 2010-03-04 | Universal Entertainment Corp | 自動会話システム、並びに会話シナリオ編集装置 |
JP2015133047A (ja) | 2014-01-15 | 2015-07-23 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
WO2016067418A1 (ja) | 2014-10-30 | 2016-05-06 | 三菱電機株式会社 | 対話制御装置および対話制御方法 |
US20160202957A1 (en) | 2015-01-13 | 2016-07-14 | Microsoft Technology Licensing, Llc | Reactive agent development environment |
CN105589848A (zh) | 2015-12-28 | 2016-05-18 | 百度在线网络技术(北京)有限公司 | 对话管理方法和装置 |
CN105845137A (zh) | 2016-03-18 | 2016-08-10 | 中国科学院声学研究所 | 一种语音对话管理系统 |
US20180143802A1 (en) | 2016-11-24 | 2018-05-24 | Samsung Electronics Co., Ltd. | Method for processing various inputs, and electronic device and server for the same |
CN108804536A (zh) | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 人机对话与策略生成方法、设备、系统及存储介质 |
CN110222162A (zh) | 2019-05-10 | 2019-09-10 | 天津中科智能识别产业技术研究院有限公司 | 一种基于自然语言处理和知识图谱的智能问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110377716B (zh) | 2022-07-12 |
CN110377716A (zh) | 2019-10-25 |
JP2021018797A (ja) | 2021-02-15 |
US20210027788A1 (en) | 2021-01-28 |
US11322153B2 (en) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7150770B2 (ja) | 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム | |
US10657966B2 (en) | Better resolution when referencing to concepts | |
KR102315732B1 (ko) | 음성 인식 방법, 디바이스, 장치, 및 저장 매체 | |
KR102222317B1 (ko) | 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 | |
CN107644638B (zh) | 语音识别方法、装置、终端和计算机可读存储介质 | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互系统 | |
JP2021067939A (ja) | 音声インタラクション制御のための方法、装置、機器及び媒体 | |
WO2021103712A1 (zh) | 一种基于神经网络的语音关键词检测方法、装置及系统 | |
JP7300435B2 (ja) | 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体 | |
CN104573099A (zh) | 题目的搜索方法及装置 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
US10872601B1 (en) | Natural language processing | |
RU2711104C2 (ru) | Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
JP2020004382A (ja) | 音声対話方法及び装置 | |
CN109741735A (zh) | 一种建模方法、声学模型的获取方法和装置 | |
CN113314119A (zh) | 语音识别智能家居控制方法及装置 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
KR20190115405A (ko) | 검색 방법 및 이 방법을 적용하는 전자 장치 | |
CN115273840A (zh) | 语音交互设备和语音交互方法 | |
CN113793599B (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN113343692B (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
WO2024093578A1 (zh) | 语音识别方法、装置、电子设备、存储介质及计算机程序产品 | |
KR101801250B1 (ko) | 음악에 적합한 테마를 자동으로 태깅하는 방법 및 시스템 | |
US20220180865A1 (en) | Runtime topic change analyses in spoken dialog contexts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210519 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210819 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210819 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220928 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7150770 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |