JP7150770B2 - 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム - Google Patents

対話方法、装置、コンピュータ可読記憶媒体、及びプログラム Download PDF

Info

Publication number
JP7150770B2
JP7150770B2 JP2020018248A JP2020018248A JP7150770B2 JP 7150770 B2 JP7150770 B2 JP 7150770B2 JP 2020018248 A JP2020018248 A JP 2020018248A JP 2020018248 A JP2020018248 A JP 2020018248A JP 7150770 B2 JP7150770 B2 JP 7150770B2
Authority
JP
Japan
Prior art keywords
information
text
word slot
intent
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020018248A
Other languages
English (en)
Other versions
JP2021018797A (ja
Inventor
スー,ユンフェイ
チェン,グオグオ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド, シャンハイ シャオドゥ テクノロジー カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2021018797A publication Critical patent/JP2021018797A/ja
Application granted granted Critical
Publication of JP7150770B2 publication Critical patent/JP7150770B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Description

本発明は、人工知能技術分野に関し、より詳しくは、対話方法、装置、コンピュ
ータ可読記憶媒体、及びプログラムに関する。
近年、人工知能技術の急速な発展に伴って、知能音声技術に関する製品は既に人々によく使われている。人々は機械との対話に徐々に慣れはじめ、且つ機械の理解及び応答能力に対する期待がより高まっている。
主流になった音声に基づく対話システムアーキテクチャには、自動音声認識(ASR、Automatic Speech Recognition)モデルと自然言語理解(NLU、Natural Language Under Standing)モデルが採用されている。作業フローには、まずASRモデルを通じてユーザの音声を文字に転換し、その後NLUモデルにより語義解析を行い、最後にユーザの意図を取得することが含まれている。
従来法としては、作業フローが二段階に分かれており、ASRモデルによる認識に誤差が現れると、NLUモデルを採用するときに誤差が拡大されてしまうという主な問題がある。また、モデルが比較的に大きい場合、NLUの計算量が多く、全体的にコストが高くなり、認識の遅延がある。
本発明は、従来技術における1つ又は複数の技術課題を解決するために、対話方法、装置及びコンピュータ可読記憶媒体を提供している。
本発明の第1態様は、対話の交互方法を提供している。当該対話の交互方法は、
認識すべき音声を第1テキストに変換することと、
前記第1テキストを語義解析モデルに入力し、第1テキストの意図情報とワードスロット情報を取得することと、
前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第1テキストに対応する交互情報を取得することと、を含む。
前記第1テキストを自動音声認識ASRモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第1信頼度を取得することと、
第1信頼度が最高である候補テキストを第2テキストとすることと、をさらに含む。
1つの実施形態において、前記第1テキストを語義解析モデルに入力し、第1テキストの意図情報とワードスロット情報を取得することは、
前記第1テキストを自然言語理解NLUモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第2信頼度を取得することと、
第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とすることと、
前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得することと、を含む。
1つの実施形態において、前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第1テキストに対応する交互情報を取得することは、
前記第1テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力することと、
前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別することと、
前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路において、遷移先である次の1つの中間ノードを検索することと、
中間ノードにより交互情報をリターンすることと、を含む。
1つの実施形態において、前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第1テキストに対応する交互情報を取得することは、
前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得することと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力することと、をさらに含む。
1つの実施形態において、前記有限状態機械の構築は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得することと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定することと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することと、を含む。
1つの実施形態において、前記意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することは、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出することと、
前記各ワードスロット情報に基づいて、有限状態機械に含まれる初期ノード、中間ノード及び最終ノードを確定することと、
前記各ワードスロット情報に基づいて、各ノード間の遷移関係を確定することと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築することと、を含む。
本発明の第2態様は、対話の交互装置を提供している。当該対話の交互装置は、
認識すべき音声を第1テキストに変換する音声変換モジュールと、
前記第1テキストを語義解析モデルに入力し、第1テキストの意図情報とワードスロット情報を取得する意図情報・ワードスロット情報取得モジュールと、
前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第1テキストに対応する交互情報を取得する交互情報取得モジュールと、を備える。
1つの実施形態において、当該装置は、
前記第1テキストを自動音声認識ASRモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第1信頼度を取得する候補テキスト・信頼度取得モジュールと、
第1信頼度が最高である候補テキストを第2テキストとする第2テキスト取得モジュールと、をさらに備える。
1つの実施形態において、前記意図情報・ワードスロット情報取得モジュールは、
前記第1テキストを自然言語理解NLUモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第2信頼度を取得する候補意図情報・信頼度取得サーブモジュールと、
第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とする第1テキスト意図情報取得サーブモジュールと、
前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得する第1ワードスロット情報取得サーブモジュールと、を備える。
1つの実施形態において、前記交互情報取得モジュールは、
前記第1テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力する意図情報・ワードスロット情報入力サーブモジュールと、
前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別する対話経路選別サーブモジュールと、
前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路において、遷移先である次の1つの中間ノードを検索する遷移ノード検索サーブモジュールと、
中間ノードにより交互情報をリターンする交互情報リターンサーブモジュールと、を備える。
1つの実施形態において、前記交互情報取得モジュールは、
前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得する第2ワードスロット情報取得サーブモジュールと、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力する第2ワードスロット情報入力サーブモジュールと、をさらに備える。
1つの実施形態において、前記有限状態機械は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得するトレーニングサンプル意図情報取得モジュールと、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定するワードスロット情報確定モジュールと、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築する対話経路構築モジュールと、を備えるように構成される。
1つの実施形態において、前記対話経路構築モジュールは、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出する情報抽出サーブモジュールと、
各ワードスロット情報に基づいて、有限状態機械が含む初期ノード、中間ノード及び最終ノードを確定するノード確定サーブモジュールと、
各ワードスロット情報に基づいて、各ノード間の遷移関係を確定する遷移関係確定サーブモジュールと、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築する構築実行サーブモジュールと、を備える。
本発明の第3態様は、対話の交互装置を提供し、前記装置の機能は、ハードウェアにより実現されることができ、且つハードウェアを通じて対応するソフトウェアを実行することにより実現されることもできる。前記ハードウェア又はソフトウェアは1つ又は複数の上記機能に対応するモジュールを備える。
1つの可能な形態において、前記装置には、プロセッサとメモリを備え、前記メモリは前記装置が前記対話の交互を実行するように支持するプログラムを記憶するためであり、前記プロセッサは前記メモリに記憶されているプログラムを実行するように構成されている。前記装置はさらに通信インタフェースを備え、その他のデバイス又は通信ネットワークを通信するために用いられる。
本発明の第4態様は対話の交互装置に用いられるコンピュータソフト命令を記憶するためのコンピュータ可読記憶媒体を提供している。当該記憶媒体には前記対話を実行するための交互方法に関わるプログラムが含まれている。
上記技術案における少なくとも1つの技術案は、以下の利点または有益な効果を有する。即ち、語義解析モデルにより、第1テキストから第1テキストの意図情報とワードスロット情報を直接取得することができる。従来技術の語義解析モデルを言語モデルの後に接続する必要があるステップを減少させることにより、時間を短縮し、ユーザにより迅速に応答することができる。同時に、前記技術案は、計算の複雑性を減らし、システム全体のコストを低下させる。
また、上記技術案における少なくとも1つの技術案は、以下の利点または有益な効果を有する。即ち、自動音声認識ASRモデルと自然言語理解NLUモデルが統合されている。統合という構想を用いて認識音声を処理することにより、信頼度が最高である候補テキストと候補意図情報を同時に出力することができる。
上記の略述は、単に説明のために過ぎず、いかなる限定をも目的としない。上記に記載されている例示的な様態、実施形態、及び特徴以外に、図面及び下記の詳細説明を参照することによって、本発明のさらなる様態、実施形態及び特徴の理解を促す。
図面において、特に規定されていない場合、複数の図面における同一の図面符号は、同一或いは類似する部材或いは要素を示す。これらの図面は、必ずしも比例に準じて描かれているわけではない。これらの図面は、本発明により開示される幾つかの実施形態を描いており、それを本発明の範囲を制限するものと見なしては行けないことを理解すべきである。
本発明の実施形態に係る対話方法を示すフローチャートである。 本発明の実施形態に係る対話方法を示すフローチャートである。 本発明の実施形態に係る対話方法を示すフローチャートである。 本発明の実施形態に係る対話方法を示すフローチャートである 本発明の実施形態に係る有限状態機械を示す模式図である。 本発明の実施形態に係る対話方法を示すフローチャートである。 本発明の実施形態に係る対話方法を示すフローチャートである。 本発明の実施形態に係る対話方法を示すフローチャートである。 本発明の実施形態に係る対話装置を示す構成ブロック図である。 本発明の実施形態に係る対話装置を示す構成ブロック図である。 本発明の実施形態に係る対話装置を示す構成ブロック図である。 本発明の実施形態に係る対話装置を示す構成ブロック図である。 本発明の実施形態に係る対話装置を示す構成ブロック図である。 本発明の実施形態に係る対話装置を示す構成ブロック図である。 本発明の実施形態に係る対話装置を示す構成ブロック図である。 本発明の実施形態に係る対話装置を示す構成ブロック図である。
下記において、幾つかの例示的実施形態を簡単に説明する。当業者が把握出来るよう、本発明の主旨又は範囲を逸脱しない限り、様々な方法により説明された実施形態に変更可能である。従って、図面及び説明は制限を加えるためのものでなく、本質的には例示的なものである。
図1は、本発明の実施形態に係る対話方法を示すフローチャートである。図1に示すように、当該方法には、下記のステップS101、S102、S103が含まれている。
対話端末は、認識すべき音声を受信した後、音響モデルにより認識すべき音声を第1テキストに変換する。対話端末には、知能スピーカ、知能ロボット、知能携帯電話などのヒューマンマシーン交互機能を有する装置が含まれる。
S102において、前記第1テキストを語義解析モデルに入力し、第1テキストの意図情報及びワードスロット情報を取得する。
語義解析モデルは、第1テキストに含まれている文の意図情報を抽出することに用いられる。意図情報は1つの文が達成しようとする目的の情報であってもよい。第1テキストには、意図情報に対応する1つ又は複数のワードスロット情報が含まれている。例えば、第1テキストは「明日の天気は如何ですか」、「天気を調べて」、「北京の天気を調べて」、「北京の明日の天気を調べて」のうちの1つであってもよい。上記第1テキストの意図情報はいずれも「天気の検索」に対応している。さらに、「天気の検索」が対応するワードスロット情報は「時間」と「場所」を含んでもよい。例えば、第1テキストが「明日の天気は如何ですか」である場合、第1テキストに含まれるワードスロット情報としては、「時間」が明日であり、「場所」が空きである。第1テキストが「天気を調べて」である場合、第1テキストに含まれるワードスロット情報としては、「時間」と「場所」のいずれも空きである。第1テキストが「北京の天気を調べて」である場合、第1テキストに含まれるワードスロット情報としては、「時間」が空きであり、「場所」が北京である。第1テキストが「北京の明日の天気を調べて」である場合、第1テキストに含まれるワードスロット情報としては、「時間」が明日であり、「場所」が北京である。
第1テキストのワードスロット情報である「時間」と「場所」を確定した後、対応する天気を調べることができる。
S103において、前記第1テキストの意図情報及びワードスロット情報を有限状態機械に入力し、前記第1テキストに対応する交互情報を取得する。
有限状態機械は、現在の対話状態に基づいて交互情報を生成するものである。交互情報は、第1テキストに対応して取得した検索結果情報であってもよく、第1テキストに対して提出した問い合わせ情報であってもよい、
例えば、第1テキストが「北京の明日の天気を調べる」である場合、第1テキストに含まれているワードスロット情報は完備しているため、有限状態機械により得られる第1テキストに対応する交互情報は、直接得られる北京の明日の天気状況の検索結果である。検索結果としては、クラウードサーバーを通じて取得することができる。例えば、対話端末は、第1テキストの意図を確定した後、クラウードサーバーと通信して北京の明日の天気情報を取得し、それを交互情報としてユーザに出力することができる。出力には音声出力及び/又は文字出力が含まれる。
例えば、第1テキストが「明日の天気は如何ですか」である場合、第1テキストに含まれているワードスロット情報である「場所」が空きであるため、有限状態機械は「場所」を問い合わせる交互情報を生成することができる。例えば、交互情報としては、「何処の天気ですか」であり、それを交互情報としてユーザに出力することができる。
図2に示すように、1つの実施形態において、当該方法には、さらに、下記のステップS201、S202が含まれる。
S201において、前記第1テキストを自動音声認識ASRモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第1信頼度を取得する。
S202において、第1信頼度が最高である候補テキストを前記第2テキストとする。
言語モデルは1つの文が現れる確率を計算するモデルとして用いられる。例えば、第1テキストが「今日の天気は如何ですか」である場合、言語モデルによる計算は、この文を単語に分割して、「今日」、「天気」、「如何ですか」という3つの単語を得ることを含んでもよい。
得られる第1候補テキストは、「今日/今日:0.1 天気/天気:0.2 如何/如何:0.6」であってもよい。得られる第2候補テキストは、「今日/今日:0.1 天気/天気:0.08 如何/如何:0.4」であってもよい。第1信頼度は、検索経路の累積コスト値で表示することができ、例えば、検索経路の累積コスト値が検索経路の全ての重みの負の対数の和である場合、第1候補テキストの検索経路の累積コスト値は、-lg(0.1)-lg(0.2)-lg(0.6)≒0.91と表示することができ、第2候補テキストの検索経路の累積コスト値は、-lg(0.1)-lg(0.08)-lg(0.4)≒2.49と表示することができる。
比較を通して、第1候補テキストは、検索経路の累積コスト値が相対的に小さく、信頼度が高いため、第2テキストとして選択されることができる。さらに、第2テキストは、対話端末の表示装置に表示されることができる。ユーザは、第2テキストを見ることにより、対話端末の認識結果を検証することができる。
言語モデルは自動音声認識ASRモデルであってもよい。当該ASRモデルは、音響モデルを含むことにより、受信した音声に対して認識を行い、複数の候補テキスト及びそれぞれに対応する第1信頼度を取得することができる。
図3に示すように、1つの実施形態において、ステップS102には、下記のステップS1021、S1022、S1023が含まれる。
S1021において、前記第1テキストを自然言語理解NLUモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第2信頼度を取得する。
S1022において、第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とする。
S1023において、前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得する。
語義解析モデルは、第1テキストからキー情報を抽出する。さらに、キー情報に基づく意図情報及び当該意図情報の信頼度は、既にトレーニングされたディープニューラルネットワーク(DNN、Deep Neural Network)或いは正規表示式(Regular Expression)等のモデルにより得られることができる。
例えば、第1テキストが「今日の天気は如何ですか」である場合、抽出されたキー情報は、「今日」、「天気」、「如何ですか」等のキー情報を含むことができる。前記キー情報を既にトレーニングされたモデルに入力することにより、候補意図情報である「天気を検索する」の信頼度が0.6であり、候補意図情報である「時間を検索する」の信頼度が0.2であることを得ることができる。
信頼度を比較することにより、候補意図情報である「天気を検索する」を第1テキストの意図情報とすることができる。さらに、「天気を検索する」に対応する、例えば「時間」、「場所」などであるワードスロット情報を得ることができる。
意図情報とワードスロット情報の対応関係は、人工的に表記する、或いはモデルをトレーニングする際に関連付けることができる。これにより、異なる意図情報に対応するワードスロット情報は、確定されることができる。
1つの実施形態において、自動音声認識ASRモデル及び自然言語理解NLUモデルは、統合されることができる。認識すべき音声に対する処理には、自動音声認識ASRモデル中の音響モデルにより、認識すべき音声を第1テキストに変換した後、第1テキストを自動音声認識ASRモデル中の音響モデル及び自然言語理解NLUモデルにそれぞれ入力し、信頼度が最高である第2テキスト及び第1テキストの意図情報を取得することが含まれてもよい。
取得された信頼度が最高である第2テキスト及び第1テキストの意図情報には、前記第1テキストを言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第1信頼度を取得すること、前記第1テキストを語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第2信頼度を取得すること、各第1信頼度を逐一第2信頼度と乗算することにより、乗算した最大値に対応する第1信頼度及び第2信頼度を確定し、確定した第1信頼度に対応する候補テキスト及び確定した第2信頼度に対応する候補意図情報を出力することが含まれてもよい。
前記技術案によれば、自然言語理解NLUモデルは、自動音声認識ASRモデルの出力に基づいて後続の認識を行う必要がなく、自動音声認識ASRモデルと自然言語理解NLUモデルを統合するものである。統合という構想を用いて認識すべき音声に対して処理を行いことにより、信頼度が最高である候補テキストと候補意図情報を同時に出力することができる。
図4、図5に示すように、1つの実施形態において、ステップS103には下記のステップS1031、S1032、S1033、S1034が含まれている。
S1031において、前記第1テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力する。
S1032において、前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別する。
S1033において、前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路の中で遷移先である次の1つの中間ノードを検索する。
S1034において、中間ノードにより交互情報をリターンする。
例えば、第1テキストは、「明日の天気は如何ですか」、「天気を調べて」、「北京の天気を調べて」、「北京の明日の天気を調べて」のうちの1つであってもよい。語義解析モデルを通じて、第1テキストの意図情報は「天気を検索する」であることが得られる。
図5に合わせて示すように、有限状態機械における実線は意図が「天気を検索する」である対話経路に対応することができる。有限状態機械における破線は意図が「時間を検索する」である対話経路に対応することができる。前記第1テキストの意図情報とワードスロット情報は、前記有限状態機械の初期ノード(図5におけるノード0)に入力される。第1テキストの意図に対する認識に基づいて、意図が「天気を検索する」である対話経路を選別することができる。即ち、対話経路は、ノード0~ノード1、ノード0~ノード2、ノード0~ノード3、ノード0~ノード4に限定される。例えば、語義解析モデルを通じて第1テキストの意図情報が「時間を検索する」である場合、対話経路は、ノード0~ノード9、ノード0~ノード10に限定される。
有限状態機械は、第1テキストのワードスロット情報の欠如状態に基づいて、対話経路のノードにおいて遷移する。例えば、「明日の天気が如何ですか」に対応するワードスロット情報は、「時間」であり、欠けているワードスロット情報は「場所」である。ノード2において、ユーザに「場所」を取得する交互情報を出力する。従って、前記第1テキストの意図情報に合致する対話経路の中でノード2を検索し、初期ノード0から中間ノード2に遷移する。中間ノード2において、ユーザに「何処の天気ですか」という交互情報をリターンする。ユーザにリターンする交互情報は、音声、文字、画像等の各種の形であってもよい、
図5、図6に合わせて示すように、1つの実施形態において、ステップS103には、下記のステップS1035、S1036がさらに含まれている。
S1035において、前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得する。
S1036において、前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力する。
対話端末は、交互情報を毎回リターンした後、対話を追跡して記録することができる。ユーザが交互情報に対して応答した場合、対話端末は応答した音声を受信した後、語義解析モデルにより前記応答情報のワードスロット情報を取得する。ワードスロット情報を利用して有限状態機械内で遷移する。例えば、中間ノード2においてユーザに「何処の天気ですか」という交互情報をリターンした後、ユーザの応答情報が「北京」である場合、語義解析モデルは「北京」に対応するワードスロット情報が「場所」であることを取得する。対話記録に合わせて見ると、「天気を検索する」という意図のうえで、二つのワードスロット情報が既に取得されたと確定できるため、ノード4に遷移する。ノード4は、ワードスロット情報が完備している場合に対応するため、最終的に天気検索情報を出力するように、完了ノード8に遷移することができる。
図7に示すように、1つの実施形態において、前記有限状態機械の構築については、下記のステップS301、S302、S303が含まれる。
S301において、語義解析モデルにより前記トレーニングサンプルの意図情報を取得する。
S302において、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定する。
S303において、意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築する。
前記トレーニングサンプルの意図情報を確定する際、同様な意図を表す異なるサンプルを用いてトレーニングすることができる。例えば、「明日の天気は如何ですか」、「明日の気温は何度ですか」、「北京は暑いですか」等は、いずれも同様の「天気を検索する」という意図を表すことができる。
意図情報に対応する各ワードスロット情報は、人工的に設定することも、モデルトレーニングを通じて設定することもできる。意図情報に含まれる対話経路を構築する目的は、受信した音声に基づいて交互情報を生成し、交互情報を利用してユーザが現在意図している全てのワードスロット情報を補完するように導き、有限状態機械が最終的に検索結果を提供できるようにするためである。
図8に示すように、1つの実施形態において、ステップS303には下記のステップS3031、S3032、S3033、S3034が含まれる。
S3031において、語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出する。
S3032において、前記各ワードスロット情報に基づいて、有限状態機械に含まれる初期ノード、中間ノード及び最終ノードを確定する。
S3033において、前記各ワードスロット情報に基づいて、各ノード間の遷移関係を確定する。
S3034において、各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築する。
例えば、意図が「天気を検索する」である場合、対応するワードスロット情報は、「時間」、「場所」であってもよい。下記の4つの状態で表すことができる。即ち、
初期ノード0~中間ノード4は、ワードスロット情報に「時間」と「場所」があることを示し、
初期ノード0~中間ノード2は、ワードスロット情報に「時間」があるが、「場所」がないことを示し、中間ノード2~中間ノード7は、交互情報を生成し、「場所」を問い合わせることを示し、中間ノード7~中間ノード4は、ワードスロット情報に「時間」と「場所」があることを示し、
初期ノード0~中間ノード3は、ワードスロット情報に「時間」がなく、「場所」があることを示し、中間ノード3~中間ノード6は、交互情報を生成し、「時間」を問い合わせることを示し、中間ノード6~中間ノード4は、ワードスロット情報に「時間」と「場所」があることを示し、
初期ノード0~中間ノード1は、ワードスロット情報に「時間」と「場所」がないことを示し、中間ノード1~中間ノード5は、交互情報を生成し、「時間」を問い合わせることを示し、中間ノード5~中間ノード2は、ワードスロット情報に「時間」があるが、「場所」がないことを示し、中間ノード2~中間ノード7は、交互情報を生成し、「場所」を問い合わせることを示し、中間ノード7~中間ノード4は、ワードスロット情報に「時間」と「場所」があることを示す。
完了ノード8は、天気検索結果の最終ノードとすることができる。
図9は、本発明の実施形態に係る対話装置を示す構成ブロック図である。図9に示すように、当該装置は、
認識すべき音声を第1テキストに変換するための音声変換モジュール901と、
前記第1テキストを語義解析モデルに入力し、第1テキストの意図情報とワードスロット情報を取得するための意図情報・ワードスロット情報取得モジュール902と、
前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力し、前記第1テキストに対応する交互情報を取得するための交互情報取得モジュール903と、を備える。
図10に示すように、当該装置は、
前記第1テキストを自動音声認識ASRモデルである言語モデルに入力し、複数の候補テキスト及びそれぞれに対応する第1信頼度を取得するための候補テキスト・信頼度取得モジュール1001と、
第1信頼度が最高である候補テキストを第2テキストとするための第2テキスト取得モジュール1002と、をさらに備える。
図11に示すように、1つの実施形態において、前記意図情報・ワードスロット情報取得モジュール902は、
前記第1テキストを自然言語理解NLUモデルである語義解析モデルに入力し、複数の候補意図情報及びそれぞれに対応する第2信頼度を取得するための候補意図情報・信頼度取得サーブモジュール9021と、
第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とするための第1テキスト意図情報サーブモジュール9022と、
前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得するための第1ワードスロット情報取得サーブモジュール9023と、を備える。
図12に示すように、1つの実施形態において、前記交互情報取得モジュール903は、
前記第1テキストの意図情報とワードスロット情報を前記有限状態機械の初期ノードに入力するための意図情報・ワードスロット情報入力サーブモジュール9031と、
前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別するための対話経路選別サーブモジュール9032と、
前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路において、遷移先である次の1つの中間ノードを検索するための遷移ノード検索サーブモジュール9033と、
中間ノードにより交互情報をリターンするための交互情報リターンサーブモジュール9034と、を備える。
図13に示すように、1つの実施形態において、前記交互情報取得モジュール903は、
前記交互情報である応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得するための第2ワードスロット情報取得サーブモジュール9035と、
前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力するための第2ワードスロット情報入力サーブモジュール9036と、をさらに備える。
図14に示すように、1つの実施形態において、前記有限状態機械は、
語義解析モデルにより前記トレーニングサンプルの意図情報を取得するためのトレーニングサンプル意図情報取得モジュール1401と、
前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定するためのワードスロット情報確定モジュール1402と、
意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築するための対話経路構築モジュール1403と、を備えるように構成される。
図15に示すように、1つの実施形態において、前記対話経路構築モジュール1403は、
語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出するための情報抽出サーブモジュール14031と、
各ワードスロット情報に基づいて、有限状態機械が含む初期ノード、中間ノード及び最終ノードを確定するためのノード確定サーブモジュール14032と、
各ワードスロット情報に基づいて、各ノード間の遷移関係を確定するための遷移関係確定サーブモジュール14033と、
各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築するための構築実行サーブモジュール14034と、を備える。
図16は、本発明の実施形態に係る対話の交互装置を示す構成ブロック図である。図16に示すように、当該装置は、メモリ1610とプロセッサ1620を備え、メモリ1610にはプロセッサ1620にて実行可能なコンピュータプログラムが記憶されている。前記プロセッサ1620が前記コンピュータプログラムを実行する場合、前記実施形態における対話の交互方法を実現することができる。前記メモリ1610及びプロセッサ1620の数は1つ又は複数であってもよい。
当該装置は、外部設備との通信を行い、データの交互転送を行うための通信インタフェース1630をさらに備える。
メモリ1610は、高速度RAMメモリを含むことができ、少なくとも1つの磁気メモリのような不揮発性メモリ(non-volatile memory)を含んでもよい。
メモリ1610、プロセッサ1620、および通信インターフェース1630が独立して実現される場合、メモリ1610、プロセッサ1620、および通信インターフェース1630は、バスによって相互接続して相互通信を行うことができる。前記バスは、インダストリスタンダードアーキテクチャ(ISA、Industry Standard Architecture)バス、外部デバイス相互接続(PCI、Peripheral ComponentInterconnect)バス、又は拡張インダストリスタンダードアーキテクチャ(EISA、Extended Industry Standard Component)バス等であってもよい。前記バスは、アドレスバス、データバス、制御バス等として分けられることが可能である。表示の便宜上、図16に1本の太線のみで表示するが、バスが1つ又は1種類のみであることを意味しない。
任意選択で、具体的な実現において、メモリ1610、プロセッサ1620及び通信インターフェース1630が1つのチップに集成した場合、メモリ1610、プロセッサ1620、及び通信インターフェース1630は、内部インターフェースによって相互通信を行うことができる。
本発明実施形態は、コンピュータプログラムを記憶するためのコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサに実行される場合、前記実施形態のいずれか1つに記載の方法を実現することができる。
本明細書において、「1つの実施形態」、「幾つかの実施形態」、「例」、「具体例」或いは「一部の例」などの用語とは、当該実施形態或いは例で説明された具体的特徴、構成、材料或いは特性を結合して、本発明の少なくとも1つの実施形態或いは実施形態に含まれることを意味する。また、説明された具体的特徴、構成、材料或いは特性は、いずれか1つ或いは複数の実施形態または例において適切に結合することが可能である。また、矛盾しない限り、当業者は、本明細書の異なる実施形態または例、および、異なる実施形態または例における特徴を結合したり、組み合わせたりすることができる。
また、用語「第1」、「第2」とは比較的な重要性を示している又は暗示しているわけではなく、単に説明のためのものであり、示される技術的特徴の数を暗示するわけでもない。そのため、「第1」、「第2」で限定される特徴は、少なくとも1つの当該特徴を明示又は暗示的に含むことが可能である。本出願の記載の中において、「複数」の意味とは、明確的に限定される以外に、2つ又は2つ以上を意味する。
フローチャート又はその他の方式で説明された、いかなるプロセス又は方法に対する説明は、特定な論理的機能又はプロセスのステップを実現するためのコマンドのコードを実行可能な1つ又はそれ以上のモジュール、断片若しくはセグメントとして理解することが可能であり、さらに、本発明の好ましい実施形態の範囲はその他の実現を含み、示された、又は、記載の順番に従うことなく、係る機能に基づいてほぼ同時にまたは逆の順序に従って機能を実行することを含み、これは当業者が理解すべきことである。
フローチャートに示された、又はその他の方式で説明された論理及び/又はステップは、例えば、論理機能を実現させるための実行可能なコマンドのシーケンスリストとして見なされることが可能であり、コマンド実行システム、装置、又はデバイス(プロセッサのシステム、又はコマンド実行システム、装置、デバイスからコマンドを取得して実行することが可能なその他のシステムを含むコンピュータによるシステム)が使用できるように提供し、又はこれらのコマンドを組み合わせて使用するコマンド実行システム、装置、又はデバイスに使用されるために、いかなるコンピュータ読取可能媒体にも具体的に実現されることが可能である。本明細書において、「コンピュータ読取可能媒体」は、コマンド実行システム、装置、デバイス、又はこれらのコマンドを組み合わせて実行するシステム、装置又はデバイスが使用できるように提供するため、プログラムを格納、記憶、通信、伝搬又は伝送する装置であってもよい。コンピュータ読み取り可能媒体のより具体的例(非網羅的なリスト)として、1つ又は複数の布配線を含む電気接続部(電子装置)、ポータブルコンピュータディスク(磁気装置)、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去書き込み可能リード・オンリー・メモリ(EPROM又はフラッシュメモリ)、光ファイバー装置、及びポータブル読み取り専用メモリ(CDROM)を少なくとも含む。また、コンピュータ読み取り可能媒体は、そのうえで前記プログラムを印字できる紙又はその他の適切な媒体であってもよく、例えば紙又はその他の媒体に対して光学的スキャンを行い、そして編集、解釈又は必要に応じてその他の適切の方式で処理して電子的方式で前記プログラムを得、その後コンピュータメモリに記憶することができるためである。
本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組み合わせによって実現されることができる。前記実施形態において、複数のステップ又は方法は、メモリに記憶された、適当なコマンド実行システムによって実行されるソフトウェア又はファームウェアによって実施されることができる。例えば、ハードウェアによって実現するとした場合、別の実施形態と同様に、データ信号に対して論理機能を実現する論理ゲート回路を有する離散論理回路、適切な混合論理ゲート回路を有する特定用途向け集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などといった本技術分野において公知である技術のうちのいずれか1つ又はそれらの組み合わせによって実現される。
当業者は、上記の実施形態における方法に含まれるステップの全部又は一部を実現するのは、プログラムによって対応するハードウェアを指示することによって可能であることを理解することができる。前記プログラムは、コンピュータ読取可能な媒体に記憶されてもよく、当該プログラムが実行されるとき、方法の実施形態に係るステップのうちの1つ又はそれらの組み合わせを含むことができる。
また、本発明の各実施形態における各機能ユニットは、1つの処理モジュールに統合されてよく、別個の物理的な個体であってもよく、2つ又は2つ以上のユニットが1つのモジュールに統合されてもよい。上記の統合モジュールは、ハードウェアで実現されてもよく、ソフトウェア機能モジュールで実現されてもよい。上記の統合モジュールが、ソフトウェア機能モジュールで実現され、しかも独立した製品として販売又は使用される場合、コンピュータ読取可能な記憶媒体に記憶されてもよい。前記記憶媒体は読取専用メモリ、磁気ディスク又は光ディスク等であってもよい。
上記の記載は、単なる本発明の具体的な実施形態に過ぎず、本発明の保護範囲はそれに限定されることなく、当業者が本発明に開示されている範囲内において、容易に想到し得る変形又は置換は、全て本発明の範囲内に含まれるべきである。そのため、本発明の範囲は、記載されている特許請求の範囲に準じるべきである。

Claims (15)

  1. コンピュータによって実行される対話方法であって、
    自動音声認識ASRモデル中の音響モデルにより、認識すべき音声を第1テキストに変換することと、
    前記第1テキストを前記自動音声認識ASRモデル中の言語モデルに入力して、複数の候補テキスト及び前記複数の候補テキストのそれぞれに対応する第1信頼度を取得することと、
    第1信頼度が最高である候補テキストを第2テキストとすることと、
    前記第1テキストを語義解析モデルに入力して、複数の候補意図情報及び前記複数の候補意図情報のそれぞれに対応する第2信頼度を取得することと、
    第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とすることと、
    前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得することと、
    前記第1テキストの意図情報及びワードスロット情報を有限状態機械に入力して、前記第1テキストに対応する交互情報を取得することと、
    を含む、
    ことを特徴とする対話方法。
  2. 前記語義解析モデルは、自然言語理解NLUモデルである
    ことを特徴とする請求項1に記載の対話方法。
  3. 前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力して、前記第1テキストに対応する交互情報を取得することは、
    前記第1テキストの意図情報及びワードスロット情報を前記有限状態機械の初期ノードに入力することと、
    前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別することと、
    前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路から遷移先である次の1つの中間ノードを検索することと、
    中間ノードにより交互情報をリターンさせることと、
    を含む、
    ことを特徴とする請求項1に記載の対話方法。
  4. 前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力して、前記第1テキストに対応する交互情報を取得することは、
    前記交互情報に対して応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得することと、
    前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力することと、をさらに含む、
    ことを特徴とする請求項1に記載の対話方法。
  5. 前記有限状態機械の構築は、
    語義解析モデルにより前記トレーニングサンプルの意図情報を取得することと、
    前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定することと、
    意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することと、を含む、
    ことを特徴とする請求項1に記載の対話方法。
  6. 前記意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築することは、
    語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出することと、
    前記各ワードスロット情報に基づいて、有限状態機械に含まれる初期ノード、中間ノード及び最終ノードを確定することと、
    前記各ワードスロット情報に基づいて、各ノード間の遷移関係を確定することと、
    各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築することと、を含む、
    ことを特徴とする請求項5に記載の対話方法。
  7. 自動音声認識ASRモデル中の音響モデルにより、認識すべき音声を第1テキストに変換する音声変換モジュールと、
    前記第1テキストを前記自動音声認識ASRモデル中の言語モデルに入力して、複数の候補テキスト及び前記複数の候補テキストのそれぞれに対応する第1信頼度を取得する候補テキスト・信頼度取得モジュールと、
    第1信頼度が最高である候補テキストを第2テキストとする第2テキスト取得モジュールと、
    前記第1テキストを語義解析モデルに入力して、複数の候補意図情報及び前記複数の候補意図情報のそれぞれに対応する第2信頼度を取得する候補意図情報・信頼度取得サーブモジュールと、
    第2信頼度が最高である候補意図情報を前記第1テキストの意図情報とする第1テキスト意図情報取得サーブモジュールと、
    前記第1テキストに含まれている、前記第1テキストの意図情報に対応するワードスロット情報を取得する第1ワードスロット情報取得サーブモジュールと、
    前記第1テキストの意図情報とワードスロット情報を有限状態機械に入力して、前記第1テキストに対応する交互情報を取得する交互情報取得モジュールと、
    を備える、
    ことを特徴とする対話装置。
  8. 語義解析モデルは、自然言語理解NLUモデルである
    ことを特徴とする請求項7に記載の対話装置。
  9. 前記交互情報取得モジュールは、
    前記第1テキストの意図情報及びワードスロット情報を前記有限状態機械の初期ノードに入力する意図情報・ワードスロット情報入力サーブモジュールと、
    前記有限状態機械において前記第1テキストの意図情報に合致する対話経路を選別する対話経路選別サーブモジュールと、
    前記第1テキストのワードスロット情報に基づいて、前記第1テキストの意図情報に合致する対話経路から遷移先である次の1つの中間ノードを検索する遷移ノード検索サーブモジュールと、
    中間ノードにより交互情報をリターンさせる交互情報リターンサーブモジュールと、
    を備える、
    ことを特徴とする請求項7に記載の対話装置。
  10. 前記交互情報取得モジュールは、
    前記交互情報に対して応答情報を受信した場合、語義解析モデルにより前記応答情報のワードスロット情報を取得する第2ワードスロット情報取得サーブモジュールと、
    前記応答情報のワードスロット情報を有限状態機械の前記中間ノードの次の1つのノードに入力する第2ワードスロット情報入力サーブモジュールと、をさらに備える、
    ことを特徴とする請求項7に記載の対話装置。
  11. 前記有限状態機械は、
    語義解析モデルにより前記トレーニングサンプルの意図情報を取得するトレーニングサンプル意図情報取得モジュールと、
    前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を確定するワードスロット情報確定モジュールと、
    意図情報に対応する各ワードスロット情報に基づいて、意図情報に含まれる対話経路を構築する対話経路構築モジュールと、を備えるように構成される、
    ことを特徴とする請求項7に記載の対話装置。
  12. 前記対話経路構築モジュールは、
    語義解析モデルにより、前記トレーニングサンプルの意図情報に対応する各ワードスロット情報を抽出する情報抽出サーブモジュールと、
    各ワードスロット情報に基づいて、有限状態機械が含む初期ノード、中間ノード及び最終ノードを確定するノード確定サーブモジュールと、
    各ワードスロット情報に基づいて、各ノード間の遷移関係を確定する遷移関係確定サーブモジュールと、
    各ノード及びその間の遷移関係に基づいて、前記トレーニングサンプルの意図情報に含まれる対話経路を構築する構築実行サーブモジュールと、を備える、
    ことを特徴とする請求項11に記載の対話装置。
  13. 1つ又は複数のプロセッサと、
    1つ又は複数のプログラムを記憶する記憶装置と、を備え、
    前記1つ又は複数のプロセッサは、前記1つ又は複数のプログラムを実行する場合、請求項1~6のいずれか一項に記載の対話方法を実行させる、
    ことを特徴とする対話装置。
  14. コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
    当該コンピュータプログラムがプロセッサに実行される場合、請求項1~6のいずれか一項に記載の対話方法を実行させる、
    ことを特徴とするコンピュータ可読記憶媒体。
  15. コンピュータにおいて、プロセッサにより実行される場合、請求項1~6のいずれか一項に記載の対話方法を実現することを特徴とするプログラム。
JP2020018248A 2019-07-23 2020-02-05 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム Active JP7150770B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910666945.X 2019-07-23
CN201910666945.XA CN110377716B (zh) 2019-07-23 2019-07-23 对话的交互方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2021018797A JP2021018797A (ja) 2021-02-15
JP7150770B2 true JP7150770B2 (ja) 2022-10-11

Family

ID=68255023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020018248A Active JP7150770B2 (ja) 2019-07-23 2020-02-05 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム

Country Status (3)

Country Link
US (1) US11322153B2 (ja)
JP (1) JP7150770B2 (ja)
CN (1) CN110377716B (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909541A (zh) * 2019-11-08 2020-03-24 杭州依图医疗技术有限公司 指令生成方法、系统、设备和介质
CN110706707B (zh) * 2019-11-13 2020-09-18 百度在线网络技术(北京)有限公司 用于语音交互的方法、装置、设备和计算机可读存储介质
CN111104495B (zh) * 2019-11-19 2023-07-28 深圳追一科技有限公司 基于意图识别的信息交互方法、装置、设备和存储介质
CN110910866B (zh) * 2019-11-28 2022-07-29 出门问问创新科技有限公司 一种对话处理方法、设备及计算机可读存储介质
CN111198937B (zh) * 2019-12-02 2023-06-30 泰康保险集团股份有限公司 对话生成及装置、计算机可读存储介质、电子设备
CN113032661A (zh) * 2019-12-09 2021-06-25 北京搜狗科技发展有限公司 一种信息交互方法及装置
CN111104502A (zh) * 2019-12-24 2020-05-05 携程计算机技术(上海)有限公司 外呼系统的对话管理方法、系统、电子设备和存储介质
CN111524533B (zh) * 2020-03-02 2023-12-08 北京声智科技有限公司 语音操作方法、装置、电子设备及存储介质
CN111488447B (zh) * 2020-04-16 2023-06-13 上海茂声智能科技有限公司 一种意图节点跳转方法、装置和跳转设备
CN111597808B (zh) * 2020-04-24 2023-07-25 北京百度网讯科技有限公司 仪表盘绘制处理方法、装置、电子设备和存储介质
CN111612482A (zh) * 2020-05-22 2020-09-01 云知声智能科技股份有限公司 对话管理方法、装置和设备
CN111710336B (zh) * 2020-06-05 2023-05-26 平安科技(深圳)有限公司 语音的意图识别方法、装置、计算机设备及存储介质
CN111782965B (zh) * 2020-06-29 2023-08-11 北京百度网讯科技有限公司 意图推荐方法、装置、设备及存储介质
CN111881271A (zh) * 2020-07-08 2020-11-03 泰康保险集团股份有限公司 一种实现自动对话的方法和装置
CN112148847B (zh) * 2020-08-27 2024-03-12 出门问问创新科技有限公司 一种语音信息的处理方法及装置
CN112017647B (zh) * 2020-09-04 2024-05-03 深圳海冰科技有限公司 一种结合语义的语音识别方法、装置和系统
CN112015880B (zh) * 2020-10-23 2021-03-30 和美(深圳)信息技术股份有限公司 智能机器人的人机对话流程自动流转方法及系统
CN112015881B (zh) * 2020-10-23 2021-02-19 和美(深圳)信息技术股份有限公司 智能机器人的人机对话流程自动切换方法及系统
CN112926313B (zh) * 2021-03-10 2023-08-15 新华智云科技有限公司 一种槽位信息的提取方法与系统
CN113228167B (zh) * 2021-03-22 2022-09-09 华为技术有限公司 一种语音控制方法及装置
CN113157939A (zh) * 2021-03-26 2021-07-23 联想(北京)有限公司 一种信息处理方法及装置
JP7295445B2 (ja) * 2021-06-10 2023-06-21 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
CN113362827B (zh) * 2021-06-24 2024-02-13 上海风和雨网络科技有限公司 语音识别方法、装置、计算机设备及存储介质
CN113793597A (zh) * 2021-09-15 2021-12-14 云知声智能科技股份有限公司 一种语音识别方法、装置、电子设备和存储介质
CN114265505A (zh) * 2021-12-27 2022-04-01 中国电信股份有限公司 人机交互处理方法、装置、存储介质及电子设备
CN114676244B (zh) * 2022-05-27 2023-01-24 深圳市人马互动科技有限公司 信息处理方法、信息处理装置以及计算机可读存储介质
CN115497465A (zh) * 2022-09-06 2022-12-20 平安银行股份有限公司 语音交互方法、装置、电子设备和存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334193A (ja) 2003-05-01 2004-11-25 Microsoft Corp 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
JP2008512789A (ja) 2004-09-10 2008-04-24 マイクロソフト コーポレーション 機械学習
JP2008234443A (ja) 2007-03-22 2008-10-02 Matsushita Electric Ind Co Ltd 情報処理装置
JP2010048980A (ja) 2008-08-20 2010-03-04 Universal Entertainment Corp 自動会話システム、並びに会話シナリオ編集装置
US20100299136A1 (en) 2007-10-11 2010-11-25 Agency For Science, Technology And Research Dialogue System and a Method for Executing a Fully Mixed Initiative Dialogue (FMID) Interaction Between a Human and a Machine
JP2015133047A (ja) 2014-01-15 2015-07-23 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2016067418A1 (ja) 2014-10-30 2016-05-06 三菱電機株式会社 対話制御装置および対話制御方法
CN105589848A (zh) 2015-12-28 2016-05-18 百度在线网络技术(北京)有限公司 对话管理方法和装置
US20160202957A1 (en) 2015-01-13 2016-07-14 Microsoft Technology Licensing, Llc Reactive agent development environment
CN105845137A (zh) 2016-03-18 2016-08-10 中国科学院声学研究所 一种语音对话管理系统
US20180143802A1 (en) 2016-11-24 2018-05-24 Samsung Electronics Co., Ltd. Method for processing various inputs, and electronic device and server for the same
CN108804536A (zh) 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 人机对话与策略生成方法、设备、系统及存储介质
CN110222162A (zh) 2019-05-10 2019-09-10 天津中科智能识别产业技术研究院有限公司 一种基于自然语言处理和知识图谱的智能问答方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027745B1 (en) * 2005-03-01 2011-09-27 Electrical Controls, Inc. Non-linear, animated, interactive assembly guide and method for controlling production
DE112014005354T5 (de) * 2013-11-25 2016-08-04 Mitsubishi Electric Corporation Dialog-management-system und dialog-management-verfahren
CN108885870A (zh) 2015-12-01 2018-11-23 流利说人工智能公司 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法
CN107463301A (zh) * 2017-06-28 2017-12-12 北京百度网讯科技有限公司 基于人工智能的对话系统构建方法、装置、设备及计算机可读存储介质
US10503468B2 (en) * 2017-12-08 2019-12-10 Amazon Technologies, Inc. Voice enabling applications
CN108197115B (zh) * 2018-01-26 2022-04-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
KR102508863B1 (ko) * 2018-03-19 2023-03-10 삼성전자 주식회사 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버
CN109003605B (zh) * 2018-07-02 2020-04-21 北京百度网讯科技有限公司 智能语音交互处理方法、装置、设备及存储介质
KR20200013152A (ko) * 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334193A (ja) 2003-05-01 2004-11-25 Microsoft Corp 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
JP2008512789A (ja) 2004-09-10 2008-04-24 マイクロソフト コーポレーション 機械学習
JP2008234443A (ja) 2007-03-22 2008-10-02 Matsushita Electric Ind Co Ltd 情報処理装置
US20100299136A1 (en) 2007-10-11 2010-11-25 Agency For Science, Technology And Research Dialogue System and a Method for Executing a Fully Mixed Initiative Dialogue (FMID) Interaction Between a Human and a Machine
JP2010048980A (ja) 2008-08-20 2010-03-04 Universal Entertainment Corp 自動会話システム、並びに会話シナリオ編集装置
JP2015133047A (ja) 2014-01-15 2015-07-23 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2016067418A1 (ja) 2014-10-30 2016-05-06 三菱電機株式会社 対話制御装置および対話制御方法
US20160202957A1 (en) 2015-01-13 2016-07-14 Microsoft Technology Licensing, Llc Reactive agent development environment
CN105589848A (zh) 2015-12-28 2016-05-18 百度在线网络技术(北京)有限公司 对话管理方法和装置
CN105845137A (zh) 2016-03-18 2016-08-10 中国科学院声学研究所 一种语音对话管理系统
US20180143802A1 (en) 2016-11-24 2018-05-24 Samsung Electronics Co., Ltd. Method for processing various inputs, and electronic device and server for the same
CN108804536A (zh) 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 人机对话与策略生成方法、设备、系统及存储介质
CN110222162A (zh) 2019-05-10 2019-09-10 天津中科智能识别产业技术研究院有限公司 一种基于自然语言处理和知识图谱的智能问答方法

Also Published As

Publication number Publication date
CN110377716B (zh) 2022-07-12
CN110377716A (zh) 2019-10-25
JP2021018797A (ja) 2021-02-15
US20210027788A1 (en) 2021-01-28
US11322153B2 (en) 2022-05-03

Similar Documents

Publication Publication Date Title
JP7150770B2 (ja) 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム
US10657966B2 (en) Better resolution when referencing to concepts
KR102315732B1 (ko) 음성 인식 방법, 디바이스, 장치, 및 저장 매체
KR102222317B1 (ko) 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체
CN107644638B (zh) 语音识别方法、装置、终端和计算机可读存储介质
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互系统
JP2021067939A (ja) 音声インタラクション制御のための方法、装置、機器及び媒体
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
JP7300435B2 (ja) 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体
CN104573099A (zh) 题目的搜索方法及装置
CN111694940A (zh) 一种用户报告的生成方法及终端设备
US10872601B1 (en) Natural language processing
RU2711104C2 (ru) Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа
CN110164416B (zh) 一种语音识别方法及其装置、设备和存储介质
JP2020004382A (ja) 音声対話方法及び装置
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置
CN113314119A (zh) 语音识别智能家居控制方法及装置
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
KR20190115405A (ko) 검색 방법 및 이 방법을 적용하는 전자 장치
CN115273840A (zh) 语音交互设备和语音交互方法
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
WO2024093578A1 (zh) 语音识别方法、装置、电子设备、存储介质及计算机程序产品
KR101801250B1 (ko) 음악에 적합한 테마를 자동으로 태깅하는 방법 및 시스템
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210519

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210819

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220928

R150 Certificate of patent or registration of utility model

Ref document number: 7150770

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150