JP2021089728A - マンマシン対話方法、装置、及び機器 - Google Patents

マンマシン対話方法、装置、及び機器 Download PDF

Info

Publication number
JP2021089728A
JP2021089728A JP2020196163A JP2020196163A JP2021089728A JP 2021089728 A JP2021089728 A JP 2021089728A JP 2020196163 A JP2020196163 A JP 2020196163A JP 2020196163 A JP2020196163 A JP 2020196163A JP 2021089728 A JP2021089728 A JP 2021089728A
Authority
JP
Japan
Prior art keywords
key information
sentence
information set
man
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020196163A
Other languages
English (en)
Other versions
JP7093825B2 (ja
Inventor
シアオナン ホー
Xiaonan He
シアオナン ホー
チャオ イン
Chao Yin
チャオ イン
チアン チュイ
Qiang Ju
チアン チュイ
チエン シエ
Jian Xie
チエン シエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021089728A publication Critical patent/JP2021089728A/ja
Application granted granted Critical
Publication of JP7093825B2 publication Critical patent/JP7093825B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ユーザの意味に対する理解の精度を高め、より合理的な応答文をユーザに出力することができるマンマシン対話方法、マンマシン対話装置、電子機器、記憶媒体及びプログラムを提供する。【解決手段】マンマシン対話方法は、ユーザが入力した第1の文を取得し、第1の文に対して意味解析を行って、第1のキー情報集合を取得するステップS301と、少なくとも1つの履歴文に対応する第2のキー情報集合を取得するステップS302と、第1のキー情報集合及び第2のキー情報集合に基づいて、第1の文に対応する複数の意味候補を決定するステップS303と、複数の意味候補に基づいて、第1の文に対応する応答文を生成するステップS304と、を含む。【選択図】図3

Description

本願の実施例は、データ処理における自然言語処理の技術分野に関し、特に、マンマシン対話方法、装置、及び機器に関する。
マンマシン対話シーンでは、ユーザの意図を明瞭に表現するために、対話を複数回行うことを必要とする場合もある。一部のシーンでは、ユーザの意図を正確に理解するために、ユーザが今回入力した文と前回入力した文とを組み合わせて理解する必要がある。
従来技術では、ユーザが入力した文を取得する度に、予め設定されたルールにより今回の文の主語、述語及び目的語の成分を検出し、今回の文が省略形態であるか否かを判断する。今回の文が省略形態であると決定すると、今回の文と前回の文とを組み合わせて理解して、ユーザの意図を決定する。今回の文が省略形態ではないと決定すると、今回の文を単独で理解してユーザの意図を決定する。
しかしながら、上記の方法は、依然としてユーザの意味に対する理解が不正確であるという問題があることにより、対話効率が低く、ユーザ体験が低下する。
本願の実施例は、ユーザの意味に対する理解の精度を高め、ユーザ対話体験を向上させるための、マンマシン対話方法、装置及び機器を提供する。
第1の態様では、本願の実施例にて提供されるマンマシン対話方法は、
ユーザが入力した第1の文を取得し、前記第1の文に対して意味解析を行って、少なくとも1つの第1のキー情報を含む第1のキー情報集合を取得することと、
少なくとも1つの第2のキー情報を含む、少なくとも1つの履歴文に対応する第2のキー情報集合を取得することと、
前記第1のキー情報集合及び前記第2のキー情報集合に基づいて、前記第1の文に対応する複数の意味候補を決定することと、
前記複数の意味候補に基づいて、前記第1の文に対応する応答文を生成することと、を含む。
第2の態様では、本願の実施例にて提供されるマンマシン対話装置は、
ユーザが入力した第1の文を取得し、前記第1の文に対して意味解析を行って、少なくとも1つの第1のキー情報を含む第1のキー情報集合を取得するために用いられ、
さらに、少なくとも1つの第2のキー情報を含む、少なくとも1つの履歴文に対応する第2のキー情報集合を取得するために用いられる取得モジュールと、
前記第1のキー情報集合及び前記第2のキー情報集合に基づいて、前記第1の文に対応する複数の意味候補を決定するために用いられる決定モジュールと、
前記複数の意味候補に基づいて、前記第1の文に対応する応答文を生成するために用いられる生成モジュールと、を含む。
第3の態様では、本願の実施例にて提供される電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリと、を含み、
ただし、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサに第1の態様のいずれか1つに記載の方法を実行させるために、前記少なくとも1つのプロセッサによって実行される。
第4の態様では、本願の実施例は、コンピュータに第1の態様のいずれか1つに記載の方法を実行させるために用いられるコンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体を提供する。
本願の実施例にて提供されるマンマシン対話方法、装置、及び機器において、当該方法は、ユーザが入力した第1の文を取得し、第1の文に対して意味解析を行って、第1のキー情報集合を取得することと、少なくとも1つの履歴文に対応する第2のキー情報集合を取得することと、第1のキー情報集合及び第2のキー情報集合に基づいて、第1の文に対応する複数の意味候補を決定することと、複数の意味候補に基づいて、第1の文に対応する応答文を生成することとを含む。上記のプロセスにおいて、第1のキー情報集合及び第2のキー情報集合に基づいて、ユーザの複数の意味候補を決定することにより、ユーザの意味に対する理解の精度を高め、より合理的な応答文をユーザに出力することができ、ユーザの対話体験が向上する。
なお、本明細書に記述された内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書によってより容易に理解できる。
添付図面は、本解決手段をより良く理解するためのものであり、本願を限定するものではない。
本願の実施例の可能な一適用シーンの模式図である。 本願の実施例におけるユーザが入力した文に対して分析処理を行うプロセスの模式図である。 本願の一実施例にて提供されるマンマシン対話方法のフローの模式図である。 本願の別の実施例にて提供されるマンマシン対話方法のフローの模式図である。 本願の一実施例にて提供される共起確率データベースの生成プロセスの模式図である。 本願の他の実施例にて提供されるマンマシン対話処理プロセスの模式図である。 本願の実施例にて提供されるマンマシン対話装置の構造の模式図である。 本願の実施例にて提供される電子機器の構造の模式図である。
以下、添付図面を参照しながら、本願の例示的な実施例について説明する。ただし、理解を容易にするために本願の実施例の様々な詳細が含まれているが、それらをただの例示的なものと見なすべきである。したがって、当業者は、本願の範囲及び精神から逸脱せず、本明細書に説明した実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確かつ簡潔にするために、以下の説明では公知の機能及び構造に対する説明を省略する。
マンマシン対話装置は、広く利用されている。マンマシン対話装置は、対話型の人工知能システムとも呼ばれ、ユーザは、自然言語で対話する方法で、視聴覚娯楽、情報照会、生活サービス、出掛け道路状況などの複数の機能の操作を実現する。マンマシン対話装置は、通常、人工知能能力を有し、ユーザとの対話中に学習・進化し続け、ユーザの好みや習慣を把握して、ますます「賢く」なる。
図1は、本願の実施例の可能な一適用シーンの模式図である。図1に示すように、当該適用シーンには、マンマシン対話装置と、ユーザとが含まれている。例示的に、ユーザは、自分の意図又は要求を表現するために、マンマシン対話装置に文を入力することができる。マンマシン対話装置は、ユーザが入力した文に対して分析、検索などの処理を行って、ユーザに応答を出力することにより、ユーザの意図又は要求を満たす。例えば、ユーザがマンマシン対話装置に「洋楽を再生して」と要求した場合、マンマシン対話装置はユーザに「洋楽《ABC》を再生します」という応答を出力し、そして、マンマシン対話装置は、洋楽《ABC》をユーザのために再生し始める。
なお、一部のシーンでは、ユーザがマンマシン対話装置に入力する文は、「query」と呼ばれてもよい。以降の実施例の記述において、「文」と「query」を同義語として理解してもよい。
本願の実施例では、マンマシン対話装置は、マンマシン対話機能を有する任意の電子機器であってもよい。マンマシン対話装置は、スマートロボット又は人工知能アシスタントなどとも呼ばれてもよく、パソコン、コンピュータ、スマートフォン、スマートホーム、スマートスピーカー、スマートビジュアルスピーカー、スマート車載機器、スマートウェアラブル機器などを含むが、これらに限定されない。
図1に示す適用シーンでは、ユーザと、マンマシン対話装置との対話方法は様々であり、本実施例は、これに対して限定しない。例示的に、ユーザは、音声形式でマンマシン対話装置と対話してもよいし、テキスト形式でマンマシン対話装置と対話してもよい。一部のシーンにおいて、ユーザは、ボディランゲージでマンマシン対話装置と対話することもできる。
いくつかのシーンでは、マンマシン対話装置は、さらに、サーバに通信接続されてもよい。このように、マンマシン対話装置は、ユーザが入力した文を収集した後、文をサーバに送信して分析処理を行って、当該文に対応する応答を得ることができ、さらに、サーバは、応答をマンマシン対話装置に返し、マンマシン対話装置により、応答をユーザに出力する。
図2は本願の実施例におけるユーザが入力した文に対して分析処理を行うプロセスの模式図である。図2に示すように、マンマシン対話装置は、ユーザが入力した文を取得した後、文に対して意味解析処理を行って、その文の意味を決定する。さらに、意味に基づいて検索処理を行って、検索された解答に基づいて応答を生成し、応答をユーザに出力する。
ここで、意味解析処理プロセスでは自然言語理解(Natural Language Understanding、NLU)モデルを用いて、NLUモデルにより文に対して意味理解を行って、NLU解析結果を得てもよい。NLU解析結果は、ドメイン(domain)、意図(intent)及びスロット(slot)を含む。ここで、ドメインはユーザが入力した文に対応する分野を示すためのものであり、意図はユーザが入力した文が表現する目的を示すためのものであり、スロットはユーザが入力した文のうち意図を表すためのキー情報を示すためのものである。
例えば、ユーザが「洋楽を再生して」という文を入力したと仮定すれば、当該文に対してNLU解析を行って、得られた解析結果は、ドメイン=音楽、意図=音楽再生、スロット=[曲の言語−英語]である。
さらに、マンマシン対話装置は、NLU解析結果にマッチする曲を見つけるために、NLU解析結果に基づいてデータベースに対して検索する。検索結果に基づいて応答を生成する。例えば、マンマシン対話装置が検索した洋楽が《ABC》であると仮定すると、「洋楽《ABC》を再生します」という応答を生成する。さらに、マンマシン対話装置は、ユーザに当該曲を再生する。
通常の場合、ユーザが入力した文の意味は、例えば「洋楽を再生して」、「紅さんの曲を聞きたい」など、比較的完全である。これらの文は、主語、述語及び目的語の成分を全部備え、文そのものでその意味を正確に理解することができる。
しかしながら、多くの場合、ユーザは、要求を表現する際に、音楽を聴きたいということをすでに言ったか、又はマンマシン対話装置が音楽を再生しているため、その後の表現では、省略形態で要求を表現することがよくある。省略形態とは、文にとって主要な目的語又は文の他の構成要素が不足しているため、文そのものを見ただけでは完全な意図を決定できないことを言う。例えば、「別の流行のものに変えて」、「あまり好きじゃない」、「中国語のものにして」など、いずれも「曲」というキー目的語を省略している。つまり、ユーザが今回入力した文は、前回の表現に新たな要求を追加したり、前の要求を修正したりしたものとなる。
このように、一部の場合では、今回の文と前回の文を組み合わせて理解する必要があり、すなわち、文脈によってユーザのセション(session)の意味を理解する必要がある。これには、時には今回の文と前回の文が意味的に関連しているため、合わせて理解する必要があり、時には今回の文と前回の文が意味的に関連しないため、別々に理解する必要があるという問題点がある。
従来技術において、ユーザの意図を正確に理解するために、マンマシン対話装置は、ユーザが入力した今回の文を取得した際に、まず、予め設定されたルールにより今回の文の主語、述語及び目的語の成分を検出して、今回の文が省略形態であるか否かを判断する。今回の文が省略形態であると決定すると、今回の文と前回の文を組み合わせて理解してユーザの意図を決定する。今回の文が非省略形態であると決定すると、今回の文を単独で理解してユーザの意図を決定する。
しかしながら、本発明者らは、本願の実施中に、上記の方法には、依然としてユーザの意味に対する理解が不正確であるという問題があり、対話効率が低く、ユーザ体験が低下することを発見した。主に次のような1つ又は複数の態様で具現化される。
(1)上記の従来技術において、今回の文の形態的特徴のみに基づいて前回の文と組み合わせて理解するか否かを判断することは、音声認識結果の精度及びユーザ表現方法の多様性に影響され、判断結果の精度が低い。例えば、今回の文が省略形態であるが、今回の文と前回の文の意味が無関連である場合がある。又は、今回の文が省略形態ではないが、今回の文と前回の文の意味が関連する場合がある。
(2)実際の応用では、ユーザの意図は、2回より多い文、例えば3回、4回、又はそれ以上の回数の文でこそ明確に表現できる場合がある。上記の従来技術では、今回の文が省略形態であると決定した場合、今回の文を前回の文のみに関連付けて理解する。前後2回の文のみでは、依然としてユーザの意味を正確に理解することができない場合がある。
(3)実際の応用では、ユーザ表現の多様性の影響を受けて、ユーザが表現する意図が曖昧であるか、又はユーザが表現する意図自体が正確でない場合がある。これらの状況で、上記の従来技術的解決手段を用いる場合、決定されたユーザの意味に基づいて解答を検索できない可能性があり、その結果、対応する応答をユーザに提供できなくなり、ユーザ体験が低い。
上記の問題のうち少なくとも1つを解決するために、本願の実施例は、マンマシン対話方法を提供し、ユーザが毎回入力した文について、当該文をその前に入力した履歴文と組み合わせて、ユーザの複数の意味候補を決定し、さらに複数の意味候補に基づいて、応答文を生成する。従来技術と比較して、ユーザの意図に対する理解の精度を高め、対話効率が向上し、それによりユーザ体験が向上する。
以下、本願の技術的解決手段について、いくつかの具体的な実施例を参照しながら詳細に説明する。以下のいくつかの具体的な実施例は組み合わせてもよく、同じ又は類似の概念又はプロセスについて、一部の実施例では説明を省略する場合がある。
図3は本願の一実施例にて提供されるマンマシン対話方法のフローの模式図である。本実施例の方法は、マンマシン対話装置により実行されてもよいし、又はマンマシン対話装置に通信接続されたサーバにより実行されてもよい。図3に示すように、本実施例の方法は、S301〜S304を含む。
S301、ユーザが入力した第1の文を取得し、前記第1の文に対して意味解析を行って、少なくとも1つの第1のキー情報を含む第1のキー情報集合を取得する。
S302、少なくとも1つの第2のキー情報を含む、少なくとも1つの履歴文に対応する第2のキー情報集合を取得する。
本実施例では、ユーザが入力した各文に対して、本実施例のS301からS304を実行する。ただし、第1の文はユーザが入力した今回の文である。履歴文はユーザが今回の文の前に入力した1回の文又は複数回の文である。
好ましくは、第1の文に対して意味解析を行って、第1のキー情報集合を取得することは、第1の文をNLU解析モデルに入力して解析して、NLU解析結果を得ることを含んでもよい。NLU解析結果は、第1のキー情報集合を含む。第1のキー情報集合は、少なくとも1つの第1のキー情報を含む。
なお、本実施例におけるキー情報は、NLU解析結果におけるスロット情報であってもよい。すなわち、第1のキー情報は、今回入力した第1の文のスロット情報であり、第2のキー情報は、履歴文のスロット情報である。
本実施例では、キャッシュに履歴文に対応する第2のキー情報集合のメンテナンスを行える。第2のキー情報集合には、履歴文の第2のキー情報が含まれている。すなわち、第2のキー情報集合には、履歴文のスロット情報が含まれている。なお、複数回の対話シーンでは、現在ユーザが入力した第1の文はN回目の文であると仮定すると、第2のキー情報集合には、前のN−1回目の履歴文のスロット情報が含まれている。
例えば、入力した前の2回の文はそれぞれ「洋楽を再生して」、「リズムの強いものに変えて」であると仮定する。ユーザが3回目に「ジャズにして」という第1の文を入力する場合、「ジャズにして」という第1の文に対して意味解析を行って、第1のキー情報集合{ジャズ}を得る。そして、キャッシュから取得された第2のキー情報集合は{英語、リズムの強い}である。さらに、ユーザが4回目の文を入力した場合、キャッシュ内の第2のキー情報集合は{英語、リズムの強い、ジャズ}となる。
本実施例では、常に第2のキー情報集合をキャッシュに更新及びメンテナンスすることで、N回目の文に対して意味解析を行う際に、前のN−1回の文のキー情報を総合的に考慮することができ、それにより長さが任意のN回である会話に対して正確に意味理解することができる。
S303、前記第1のキー情報集合及び前記第2のキー情報集合に基づいて、前記第1の文に対応する複数の意味候補を決定する。
ここで、第1の文に対応する複数の意味候補とは、ユーザが第1の文を入力する際に表現したい可能性がある複数の意味を言う。
第1のキー情報集合及び第2のキー情報集合を総合的に考慮することにより、ユーザの複数の意味候補を決定できる。上記例を参照すると、ユーザが入力した前の2回の文がそれぞれ「洋楽を再生して」、「リズムの強いものに変えて」であると仮定する。ユーザが3回目に「ジャズにして」という第1の文を入力した場合、ユーザは、リズムの強いジャズ曲(中国語か、英語かを問わず)を聞きたがる可能性も、洋楽ジャズ(リズムが強いか否かを問わず)を聞きたがる可能性も、リズムの強い洋楽ジャズ、ジャズ曲(中国語か、英語かを問わず、リズムが強いか否かを問わず)を聞きたがる可能性もある。
好ましくは、可能な一実施形態において、第1のキー情報集合及び第2のキー情報集合のうちのキー情報に対して組合せ処理を行って、複数種のキー情報組合せ結果を得ることができる。このように、各種のキー情報組合せ結果に基づいて、ユーザの意味候補を1つ決定できる。これにより、複数種のキー情報組合せ結果に基づいて、ユーザの複数の意味候補を決定できる。
好ましくは、本実施例では、第1の文に対して意味解析を行う際に、さらに、第1の文の意図(intent)を得るとともに、キャッシュに少なくとも1つの履歴文に対応する意図(intent)をメンテナンスすることができる。このように、S303の前に、さらに、第1の文の意図と前記少なくとも1つの履歴文の意図とが同じであるか又は関連するか否かを判断することを含んでもよい。同じである又は関連すると決定すると、続いてS303とS304を実行する。同じでない又は関連しないと決定すると、第1の文を1回目に入力した文であるとみなし、従来のマンマシン対話方法を用いて第1の文を処理することができる。
S304、前記複数の意味候補に基づいて、前記第1の文に対応する応答文を生成する。
例示的に、各意味候補に対して解答検索をそれぞれ行い、複数の意味候補の検索結果に基づいて、第1の文に対応する応答を生成することができる。例えば、ある意味候補に対して、検索した結果解答が得られない場合、他の意味候補の検索結果に基づいて応答文を生成することができる。
本実施例は、第1の文に対応する複数の意味候補を決定したため、第1の文に対応する応答を生成する際に、異なる意味候補の検索結果に基づいて、ユーザにより合理的な応答を出力することができ、それによりユーザの対話体験が向上することを理解すべきである。
本実施例では、第1の文の複数の意味候補を決定する場合、第1のキー情報集合及び第2のキー情報集合を総合的に分析して得られる。つまり、第1の文を解析して得られた第1のキー情報と履歴文を解析して得られた第2のキー情報を総合的に分析して得られる。キー情報はユーザの意味を特徴づける重要な情報であるため、本実施例では、ユーザの複数回の文の意味関連性の観点から、第1の文の複数の意味候補を決定するため、意味理解の精度を高めることができる。
さらに、本実施例では、第1の文が省略形態であるか否かに関わらず、履歴文のうちのキー情報と組み合わせて総合的に分析し、第1の文が省略形態であるか否かに依存しないため、意味理解の精度をさらに高めることができる。
本実施例にて提供されるマンマシン対話方法は、ユーザが入力した第1の文を取得し、第1の文に対して意味解析を行って、第1のキー情報集合を取得することと、少なくとも1つの履歴文に対応する第2のキー情報集合を取得することと、第1のキー情報集合及び第2のキー情報集合に基づいて、第1の文に対応する複数の意味候補を決定することと、複数の意味候補に基づいて、第1の文に対応する応答文を生成することとを含む。上記のプロセスにおいて、第1のキー情報集合及び第2のキー情報集合に基づいて、ユーザの複数の意味候補を決定することにより、ユーザの意味に対する理解の精度を高め、ユーザにより合理的な応答文を出力することができ、ユーザの対話体験が向上する。
図4は、本願の別の実施例にて提供されるマンマシン対話方法のフローの模式図である。本実施例は図3に示す実施例を詳しく説明する。図4に示すように、本実施例の方法は、S401〜S407を含む。
S401、ユーザが入力した第1の文を取得し、第1の文に対して意味解析を行って、少なくとも1つの第1のキー情報を含む第1のキー情報集合を取得する。
S402、少なくとも1つの第2のキー情報を含む、少なくとも1つの履歴文に対応する第2のキー情報集合を取得する。
本実施例において、S401及びS402の具体的な実施形態は、図3におけるS301及びS302に類似するため、ここでは説明を省略する。
S403、前記第2のキー情報集合に対応する複数のサブ集合を生成し、前記第1のキー情報集合を前記複数のサブ集合とそれぞれ組み合わせて、前記複数種のキー情報組合せ結果を得る。
S404、前記複数種のキー情報組合せ結果に基づいて、前記第1の文に対応する複数の意味候補を決定する。
例示的に、第1のキー情報集合はquery_slotsで表示され、第2のキー情報集合はsession_slotsで表示されることを仮定する。第1のキー情報集合はn個の第1のキー情報を含むと、すなわち、
query_slots={q_slot1,q_slot2,…,q_slotn}、
第2のキー情報集合はk個の第2のキー情報を含むと、すなわち、
session_slots={s_slot1,s_slot2,…,s_slotk}と仮定すると、
第1のキー情報集合及び第2のキー情報集合のうちのキー情報に対して組合せ処理を行う際に、まず、第2のキー情報集合session_slotsの2k種のサブ集合を生成し、それぞれは、
{φ}、{s_slot1}、…、{s_slotk}、{s_slot1,s_slot2}、…、{s_slot1,s_slot2,…,s_slotm}、…、{s_slot1,s_slot2,…,s_slotk}である。
ただし、m<kである。
続いて、上記の各サブ集合と第1のキー情報集合を組み合わせて、キー情報組合せ結果を得、このように、全部で2k種のキー情報組合せ結果を得、それぞれ、
キー情報組合せ結果1:
{φ}と{q_slot1,q_slot2,…,q_slotn}との組合せ、
キー情報組合せ結果2:
s_slot1と{q_slot1,q_slot2,…,q_slotn}との組合せ、
キー情報組合せ結果t:
{s_slot1,s_slot2,…,s_slotm}と{q_slot1,q_slot2,…,q_slotn}との組合せで、
キー情報組合せ結果2k
{s_slot1,s_slot2,…,s_slotk}と{q_slot1,q_slot2,…,q_slotn}との組合せである。
例を挙げて説明すると、n=2、k=2、第1のキー情報集合は{C、D}で、第2のキー情報集合は{A、B}であると仮定すると、第2のキー情報集合により、それぞれ{φ}、{A}、{B}、{A、B}の4つのサブ集合を生成する。上記の4つのサブ集合をそれぞれ第1のキー情報集合と組み合わせて4種のキー情報組合せ結果を得、それぞれ{φ,C,D}、{A,C,D}、{B,C,D}、{A,B,C,D}である。
なお、上記の各種のキー情報組合せ結果に基づいて、ユーザの意味候補を1つ決定することができることを理解することができる。このように、2k種のキー情報組合せ結果に基づいて、ユーザの2k個の意味候補を取得することができる。
S405、各種のキー情報組合せ結果に対応する意味候補の確率スコアをそれぞれ決定する。
本実施例では、1つの意味候補の確率スコアは、当該意味候補がユーザの真の意味である確率の大きさを示す。1つの意味候補の確率スコアが高いほど、当該意味候補がユーザの真の意味である可能性が高い。
可能な一実施形態では、次の方法で意味候補の確率スコアを決定してもよい。各種のキー情報組合せ結果における第1のキー情報集合及び第2のキー情報集合のサブ集合について、第1のキー情報集合のうちのキー情報が全て出現するときに、当該サブ集合のうちのキー情報も全て出現する条件付き確率を計算し、当該条件付き確率を当該キー情報組合せ結果に対応する意味候補の確率スコアとする。
具体的には、S403とS404により得られる2k個の意味候補の確率スコアは、
意味候補1:
Figure 2021089728
意味候補2:
Figure 2021089728
意味候補t:
Figure 2021089728
意味候補2k
Figure 2021089728
である。
具体的な実施プロセスでは、統計的困難と正規化などの問題を考慮して、上記の各意味候補の確率スコアは、結合確率の方法ではなく、全てのキー情報を2項関係グループに分割して計算する。以下、2つの可能な計算方法を記述する。
方法1では、各意味候補の確率スコアの計算方法は、前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を取得し、前記共起確率に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定する方法であってもよい。
上記の方法1では、意味候補の確率スコアを計算する際に、キー情報組合せ結果における第1のキー情報と第2のキー情報との間の共起確率を利用して、意味候補の確率スコアの精度を保証する。
さらに、方法1に加えて、上記の各意味候補の確率スコアを計算する際に、第1の文が省略形態である確率Plexを考慮してもよく、具体的には次のとおりである。
方法2、各意味候補の確率スコアの計算方法は、前記第1の文が省略形態である確率を取得し、前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を取得し、前記第1の文が省略形態である確率及び前記共起確率に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定する方法であってもよい。
可能な一実施形態では、第1の文が省略形態である確率Plexは、第1の文を事前に訓練済みのディープニューラルネットワーク(Deep Neural Networks,DNN)に入力することで、DNNネットワークの予測により得られることができる。当該実施形態では、予め設定されたルールを用いて、第1の文の主語、述語及び目的語の成分を検出して、第1の文が省略形態であるか否かを判断する従来技術と比較して、DNNネットワークを用いて第1の文の省略形態の確率を予測することにより、予測結果の精度が向上する。
上記の方法2では、意味候補の確率スコアを計算する際に、キー情報組合せ結果における第1のキー情報と第2のキー情報との間の共起確率を利用しただけでなく、第1の文が省略形態である確率も利用し、意味候補の確率スコアの精度をさらに向上させる。
以下、方法2を例として、意味候補の確率スコアの計算プロセスを例示する。
例示的に、意味候補2の確率スコアの計算方法を例とすると、
Figure 2021089728
である。
例示的に、意味候補tの確率スコアの計算方法を例とすると、
Figure 2021089728
である。
上記の2つの例では、P(s_slotj|q_sloti)は、q_slotiが出現するときに、s_slotjも出現する条件付き確率を示す。当該条件付き確率は、s_slotjとq_slotiの共起確率P(s_slotj,q_sloti)及びq_slotiの確率P(q_sloti)で計算して得ることができ、すなわち、
Figure 2021089728
である。
本実施例では、意味候補の確率スコアを計算する際に、キー情報組合せ結果における第1のキー情報と第2のキー情報との間の共起確率を利用し、当該共起確率は、大量の履歴コーパスをオフラインで統計することによって得られたものであってもよく、意味候補の確率スコアの精度を高めることができる。
具体的には、次のような、実行可能な方法を使用してもよい。履歴コーパスを取得し、前記履歴コーパスに基づいて、異なるキー情報間の共起確率を含むキー情報共起データベースを生成し、前記キー情報共起データベースを照会することにより、第1のキー情報と第2のキー情報との間の共起確率を得る。
なお、本実施例は、キー情報共起データベースの生成プロセスに対しては限定せず、可能な一実施形態は、後続の実施例の詳細な説明を参照してもよい。
S406:前記複数の意味候補を、前記確率スコアの高い順に順序付ける。
S407:解答が検索されるまで、前記複数の意味候補に対して順序付けられた順で解答検索を行い、前記解答に基づいて前記第1の文に対応する応答文を生成する。
なお、複数の意味候補を、確率スコアの高い順に順序付けることは理解できる。このように、意味候補の順序付けられた順位が高いほど、ユーザの真の意味に近い。したがって、複数の意味候補に対して、解答が検索されるまで、順序付けられた順に解答検索を行ってよい。さらに、検索された解答に基づいて、第1の文に対応する応答文を生成する。
例示的に、順序付けの結果に基づいて、第1の意味候補を優先的に検索して、解答が検索されるか否かを決定する。そうであれば、当該解答に基づいて第1の文に対応する応答文を生成し、そうでなければ、続いて2番目の意味候補を検索する。解答が検索されるまで、順番に類推して、検索された解答に基づいて応答文を生成する。
好ましくは、複数の意味候補を順序付ける前に、さらに、予め設定された閾値を使用して確率スコアをフィルタリングしてよく、このように、確率スコアが予め設定された閾値よりも大きい意味候補のみを順序付けばよい。
以下、具体的な一実施例を参照しながら、共起確率データベースの生成プロセスについて説明する。
図5は本願の一実施例にて提供される共起確率データベースの生成プロセスの模式図である。図5に示すように、本実施例の方法は、S501〜S504を含む。
S501、履歴コーパスを取得する。
ただし、履歴コーパスは、検索ログ、対話ログなどを含むが、これらに限定されない。
S502、前記履歴コーパスに対してキー情報マイニングを行って、複数のキー情報を得る。
具体的には、予め訓練したキー情報検出モデルを用いて、上記の履歴コーパスを当該モデルに入力し、当該モデルにより履歴コーパスのうちのキー情報にラベルを付け、ラベル付けの結果に基づいて複数のキー情報を得てもよい。
例えば、ある履歴コーパスが「紅さん曲可愛い風船」であると仮定すると、モデルを用いて当該履歴コーパスにラベルを付け、スター=「紅さん」、曲=「可愛い風船」というラベル付けの結果を得る。それにより、「紅さん」と「可愛い風船」というキー情報を得る。
S503、前記複数のキー情報のうち任意の2つのキー情報の前記履歴コーパスでの共起回数を統計する。
S504、前記共起回数に基づいて、前記任意の2つのキー情報間の共起確率を決定する。
上記のラベル付けの結果に基づいて、任意の2つのキー情報の共起回数、すなわち、任意の2つのキー情報が1つのコーパスに同時に出現する回数を統計することができる。例えば、「紅さん」と「可愛い風船」の共起回数を統計し、当該共起回数をコーパス総数で割ることで、「紅さん」と「可愛い風船」の共起確率を得ることができる。
さらに、本実施例の実行プロセスは、オフラインで行ってもよい。本実施例で統計して得た異なるキー情報の共起確率をデータベースに記憶し、共起確率データベースを生成する。このように、第1の文に対する意味理解をオンラインで行う必要がある場合、当該共起確率データベースを照会することで、必要なキー情報間の共起確率を得ることができ、意味理解の効率が向上する。
図6は本願の他の実施例にて提供されるマンマシン対話処理プロセスの模式図である。以下、図6を参照して、本願の実施例におけるマンマシン対話処理プロセスについて、例を挙げて説明する。
ユーザがマンマシン対話装置に入力した履歴文は、「洋楽を再生して」、「リズムの強いのにして」を含むと仮定する。ユーザが、さらに、「ジャズ曲にして」という文をマンマシン対話装置に入力する場合、マンマシン対話装置が現在文に対して実行するプロセスは、図6に示すとおりである。
図6を参照すると、マンマシン対話装置は、現在文に対して意味解析を行って、第1のキー情報集合{ジャズ}を得るとともに、キャッシュから履歴文に対応する第2のキー情報集合{英語、リズムの強い}を取得する。具体的には、第1のキー情報集合及び第2のキー情報集合の取得プロセスは、図3のS301及びS302の詳細な説明を参照できる。
図6を続いて参照すると、マンマシン対話装置は、第1のキー情報集合及び第2のキー情報集合のうちのキー情報に対して組合せ処理を行って、複数種のキー情報組合せ結果を得、各種のキー情報組合せ結果はそれぞれ1つの意味候補に対応する。さらに、各意味候補の確率スコアを計算する。複数の意味候補及び対応する確率スコアは、
意味候補1:{ジャズ}、確率スコア0.7、
意味候補2:{英語、ジャズ}、確率スコア0.9、
意味候補3:{リズムの強い、ジャズ}、確率スコア0.85、
意味候補4:{英語、リズムの強い、ジャズ}、確率スコア0.92であると仮定する。
ただし、キー情報に対して組合せ処理するプロセスは、S403〜S404の詳細な記述を参照でき、各意味候補の確率スコアの計算プロセスは、S405の詳細な記述を参照できる。
図6を続いて参照すると、マンマシン対話装置は、複数の意味候補を確率スコアの高い順に順序付け、順序付け後の順序は、意味候補4、意味候補2、意味候補3、意味候補1である。
さらに、マンマシン対話装置は、順序付けられた順で、各意味候補を順次に検索する。例示的に、まず意味候補4を検索し、解答が検索された場合、検索された解答に基づいて応答文を生成し、解答が検索されない場合、続いて意味候補2を検索する。解答が検索された場合、検索された解答に基づいて応答文を生成し、解答が検索されない場合、続いて意味候補3を検索し、このように類推する。
上記のプロセスでは、第1のキー情報集合及び第2のキー情報集合に基づいて、ユーザの複数の意味候補を決定することで、ユーザの意味に対する理解の精度を向上させ、さらに、異なる意味候補の検索結果に基づいて、ユーザにより合理的な応答文を出力することができ、ユーザの対話体験が向上する。
図7は本願の実施例にて提供されるマンマシン対話装置の構造の模式図である。本実施例の装置は、ソフトウェア及び/又はハードウェアの形式であってもよい。図7に示すように、本実施例のマンマシン対話装置10は、取得モジュール11と、決定モジュール12と、生成モジュール13とを含んでもよい。
ここで、取得モジュール11は、ユーザが入力した第1の文を取得し、前記第1の文に対して意味解析を行って、少なくとも1つの第1のキー情報を含む第1のキー情報集合を取得するために用いられ、
前記取得モジュール11は、さらに、少なくとも1つの第2のキー情報を含む、少なくとも1つの履歴文に対応する第2のキー情報集合を取得するために用いられ、
決定モジュール12は、前記第1のキー情報集合及び前記第2のキー情報集合に基づいて、前記第1の文に対応する複数の意味候補を決定するために用いられ、
生成モジュール13は、前記複数の意味候補に基づいて、前記第1の文に対応する応答文を生成するために用いられる。
可能な一実現形態では、前記決定モジュール12は、具体的に、
前記第1のキー情報集合及び前記第2のキー情報集合のうちのキー情報に対して組合せ処理を行って、複数種のキー情報組合せ結果を得、
前記複数種のキー情報組合せ結果に応じて、前記第1の文に対応し且つ前記複数種のキー情報組合せ結果と一対一に対応する複数の意味候補を決定するために用いられる。
可能な一実現形態では、前記決定モジュール12は、具体的には、
前記第2のキー情報集合に対応する複数のサブ集合を生成し、
前記第1のキー情報集合を前記複数のサブ集合とそれぞれ組み合わせて、前記複数種のキー情報組合せ結果を得るために用いられる。
可能な一実現形態では、前記生成モジュール13は、具体的には、
各種のキー情報組合せ結果に対応する意味候補の確率スコアをそれぞれ決定し、
前記複数の意味候補を前記確率スコアの高い順に順序付けし、
解答が検索されるまで、前記複数の意味候補に対して順序付けられた順で解答検索を行い、前記解答に基づいて前記第1の文に対応する応答文を生成するために用いられる。
可能な一実現形態では、前記生成モジュール13は、具体的には、
前記キー情報組合せ結果における前記第1のキー情報集合及び前記サブ集合に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定し、
前記条件付き確率を当該キー情報組合せ結果に対応する意味候補の確率スコアとするために用いられる。
可能な一実現形態では、前記生成モジュール13は、具体的には、
前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を取得し、
前記共起確率に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定するために用いられる。
可能な一実現形態では、前記生成モジュール13は、具体的には、
前記第1の文が省略形態である確率を取得し、
前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を取得し、
前記第1の文が省略形態である確率及び前記共起確率に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定するために用いられる。
可能な一実現形態では、前記生成モジュール13は、具体的には、
履歴コーパスを取得し、前記履歴コーパスに基づいて、異なるキー情報間の共起確率を含むキー情報共起データベースを生成し、
前記キー情報共起データベースを照会することにより、前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を得るために用いられる。
可能な一実現形態では、前記生成モジュール13は、具体的には、
前記履歴コーパスに対してキー情報マイニングを行って、複数のキー情報を得、
前記複数のキー情報のうち任意の2つのキー情報の前記履歴コーパスでの共起回数を統計し、
前記共起回数に基づいて、前記任意の2つのキー情報間の共起確率を決定するために用いられる。
本実施例にて提供されるマンマシン対話装置は、上記の任意の方法の実施例における技術的解決手段を実現するために用いられることができ、その実現原理と技術的効果は類似するため、ここでは説明を省略する。
本願の実施例によれば、本願は、電子機器及び可読記憶媒体をさらに提供する。
図8に示すように、本願の実施例によるマンマシン対話方法の電子機器のブロック図である。電子機器は、例えばラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適当なコンピュータなどの様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、さらに、例えば携帯端末、セルラーホン、スマートフォン、ウエアラブル装置及び他の類似する計算装置などの様々な形式の携帯装置を表し得る。本明細書に示す部材、それらの接続及び関係、並びにそれらの機能は、単なる例示であり、本明細書に説明及び/又は主張する本願の実施を制限することを意図していない。
図8に示すように、当該電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、高速インターフェース及び低速インターフェースを含む、各部材を接続させるインターフェースとを含む。各部材は、異なるバスを利用して互いに接続され、共通のマザーボードに取り付けられてもよく、必要に応じて他の方法で取り付けられてもよい。プロセッサは、メモリ内又はメモリ上に記憶されて外部入出力装置(例えば、インターフェースに結合された表示装置)にグラフィカルディスプレイインターフェイス(GUI)のグラフィック情報を示すための命令を含む、電子機器内で実行される命令を処理することができる。他の実施形態において、必要があれば、複数のプロセッサ及び/又は複数本のバスと複数のメモリを一緒に使用してもよい。同様に、複数の電子機器を接続してもよく、各機器は一部の必要な操作(例えば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとして)を提供する。図8は、1つのプロセッサ801を例に挙げている。
メモリ802は、本願にて提供される非一時的なコンピュータ可読記憶媒体である。ここで、前記メモリには、本願にて提供されるマンマシン対話方法を前記少なくとも1つのプロセッサに実行させるように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本願の非一時的なコンピュータ可読記憶媒体には、本願にて提供されるマンマシン対話方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。
メモリ802は、非一時的なコンピュータ可読記憶媒体として、例えば本願の実施例のマンマシン対話方法に対応するプログラム命令/モジュール(例えば、図7に示す取得モジュール11、決定モジュール12及び生成モジュール13)など、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールを格納するために用いることが可能である。プロセッサ801は、メモリ802に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例のマンマシン対話方法を実現する。
メモリ802は、オペレーティングシステム及び少なくとも1つの機能に必要なアプリケーションプログラムを記憶することが可能なプログラム記憶領域と、電子機器の使用に応じて作成されたデータなどを記憶することが可能なデータ記憶領域とを含んでもよい。また、メモリ802は、高速ランダムアクセスメモリを含んでもよく、非一時的なメモリを含んでもよく、例えば少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートメモリデバイスがある。一部の実施例において、メモリ802は、プロセッサ801に対して遠隔に設置されたメモリを含むものを選択してもよく、これらの遠隔メモリはネットワークを介して電子機器に接続できる。上記ネットワークは、実例としてインターネット、企業のイントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
マンマシン対話方法用の電子機器は、さらに、入力装置803及び出力装置804を含む。プロセッサ801、メモリ802、入力装置803及び出力装置804は、バス又は他の方法を介して接続されてもよく、図8では、バスを介して接続されることを例に挙げている。
入力装置803は、入力された数字や文字情報を受信でき、且つマンマシン対話用の電子機器のユーザ設定及び機能制御に関するキー信号の入力を生成し、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパネル、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置がある。出力装置804は表示機器、補助照明装置(例えば、発光ダイオード(LED))及び触覚フィードバック装置(例えば、振動モータ)などを含み得る。当該表示機器は、液晶ディスプレイ(LCD)、LEDディスプレイ及びプラズマディスプレイを含み得るが、これらに限定されない。一部の実施形態において、表示機器はタッチスクリーンであってもよい。
本明細書で説明するシステム及び技法の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせによって実現されることができる。これらの様々な実施形態は次のような方法を含み得る。少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈され得る1つ又は複数のコンピュータプログラムで実施され、当該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械語命令を含み、ハイレベルプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又は/アセンブリ/機械語を利用してこれらのコンピュータプログラムを実施してもよい。本明細書に使用されているように、用語「機械可読媒体」及び「コンピュータ可読媒体」とは、機械語命令及び/又はデータをプログラマブルプロセッサに提供するための如何なるコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を言い、機械可読信号としての機械語命令を受信する機械可読媒体を含む。用語「機械可読信号」とは、機械語命令及び/又はデータをプログラマブルプロセッサに提供するための如何なる信号を言う。
ユーザとの対話を提供するために、コンピュータ上で本明細書に説明したシステム及び技術を実施でき、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニター)と、キーボード及びポインティングデバイス(例えば、マウスやトラックボールなど)とを有し、ユーザは当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインターアクションを提供するために用いることができ、例えば、ユーザに提供されるフィードバックは、如何なる形式の感覚フィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、如何なる形式(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
本明細書に説明したシステム及び技術を、バックグラウンド部材を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア部材を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部材を含むコンピューティングシステム(例えば、グラフィカルユーザーインターフェイス又はWebブラウザーを有するユーザコンピュータ、ユーザは当該グラフィカルユーザーインターフェイス又は当該Webブラウザーを介して本明細書に説明したシステム及び技術の実施形態とインターアクションできる)、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材を含む任意の組み合わせのコンピューティングシステムで実施され得る。システムの部材は、如何なる形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して互いに接続できる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)及びインターネットを含む。
コンピューティングシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般に、互いに離れていて、且つ通常通信ネットワークを介してインターアクションする。クライアントとサーバとの関係は、対応するコンピュータ上で実行されるとともに互いにクライアント―サーバ関係を有するコンピュータプログラムによって生成される。
上記に示した様々な形式のフローを使用して、ステップを並び替え、増加又は削除してもよいことを理解すべきである。例えば、本願に開示される技術的解決手段の望ましい結果が実現される限り、本願に記載の各ステップを同時に実行しても、順番に実行しても、異なる順序で実行してもよく、本明細書では制限しない。
上記の具体的な実施形態は、本願の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本発明の精神及び原理の範囲内で行われるあらゆる修正、同価置換、改良などは、いずれも本発明の保護範囲に含まれるべきである。

Claims (21)

  1. ユーザが入力した第1の文を取得し、前記第1の文に対して意味解析を行って、少なくとも1つの第1のキー情報を含む第1のキー情報集合を取得することと、
    少なくとも1つの第2のキー情報を含む、少なくとも1つの履歴文に対応する第2のキー情報集合を取得することと、
    前記第1のキー情報集合及び前記第2のキー情報集合に基づいて、前記第1の文に対応する複数の意味候補を決定することと、
    前記複数の意味候補に基づいて、前記第1の文に対応する応答文を生成することと、を含むマンマシン対話方法。
  2. 前記第1のキー情報集合及び前記第2のキー情報集合に基づいて、前記第1の文に対応する複数の意味候補を決定することは、
    前記第1のキー情報集合及び前記第2のキー情報集合のうちのキー情報に対して組合せ処理を行って、複数種のキー情報組合せ結果を得ることと、
    前記複数種のキー情報組合せ結果に応じて、前記第1の文に対応し且つ前記複数種のキー情報組合せ結果と一対一に対応する複数の意味候補を決定することと、を含む請求項1に記載のマンマシン対話方法。
  3. 前記第1のキー情報集合及び前記第2のキー情報集合のうちのキー情報に対して組合せ処理を行って、複数種のキー情報組合せ結果を得ることは、
    前記第2のキー情報集合に対応する複数のサブ集合を生成することと、
    前記第1のキー情報集合を前記複数のサブ集合とそれぞれ組み合わせて、前記複数種のキー情報組合せ結果を得ることと、を含む請求項2に記載のマンマシン対話方法。
  4. 前記複数の意味候補に基づいて、前記第1の文に対応する応答文を生成することは、
    各種のキー情報組合せ結果に対応する意味候補の確率スコアをそれぞれ決定することと、
    前記複数の意味候補を、前記確率スコアの高い順に順序付けることと、
    解答が検索されるまで、前記複数の意味候補に対して順序付けられた順で解答検索を行い、前記解答に基づいて前記第1の文に対応する応答文を生成することと、を含む請求項3に記載のマンマシン対話方法。
  5. 各種のキー情報組合せ結果に対応する意味候補の確率スコアをそれぞれ決定することは、
    各種のキー情報組合せ結果における前記第1のキー情報集合及び前記サブ集合に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定することと、
    前記条件付き確率を前記キー情報組合せ結果に対応する意味候補の確率スコアとすることと、を含む請求項4に記載のマンマシン対話方法。
  6. 前記キー情報組合せ結果における前記第1のキー情報集合及び前記サブ集合に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定することは、
    前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を取得することと、
    前記共起確率に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定することと、を含む請求項5に記載のマンマシン対話方法。
  7. 前記キー情報組合せ結果における前記第1のキー情報集合及び前記サブ集合に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定することは、
    前記第1の文が省略形態である確率を取得することと、
    前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を取得することと、
    前記第1の文が省略形態である確率及び前記共起確率に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定することと、を含む請求項5に記載のマンマシン対話方法。
  8. 前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を取得することは、
    履歴コーパスを取得し、前記履歴コーパスに基づいて、異なるキー情報間の共起確率を含むキー情報共起データベースを生成することと、
    前記キー情報共起データベースを照会することにより、前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を得ることと、を含む請求項6又は7に記載のマンマシン対話方法。
  9. 前記履歴コーパスに基づいて、キー情報共起データベースを生成することは、
    前記履歴コーパスに対してキー情報マイニングを行って、複数のキー情報を得ることと、
    前記複数のキー情報のうち任意の2つのキー情報の前記履歴コーパスでの共起回数を統計することと、
    前記共起回数に基づいて、前記任意の2つのキー情報間の共起確率を決定することと、を含む請求項8に記載のマンマシン対話方法。
  10. ユーザが入力した第1の文を取得し、前記第1の文に対して意味解析を行って、少なくとも1つの第1のキー情報を含む第1のキー情報集合を取得するために用いられ、
    さらに、少なくとも1つの第2のキー情報を含む、少なくとも1つの履歴文に対応する第2のキー情報集合を取得するために用いられる取得モジュールと、
    前記第1のキー情報集合及び前記第2のキー情報集合に基づいて、前記第1の文に対応する複数の意味候補を決定するために用いられる決定モジュールと、
    前記複数の意味候補に基づいて、前記第1の文に対応する応答文を生成するために用いられる生成モジュールと、を含むマンマシン対話装置。
  11. 前記決定モジュールは、
    前記第1のキー情報集合及び前記第2のキー情報集合のうちのキー情報に対して組合せ処理を行って、複数種のキー情報組合せ結果を取得し、
    前記複数種のキー情報組合せ結果に応じて、前記第1の文に対応し且つ前記複数種のキー情報組合せ結果と一対一に対応する複数の意味候補を決定するために用いられる請求項10に記載のマンマシン対話装置。
  12. 前記決定モジュールは、
    前記第2のキー情報集合に対応する複数のサブ集合を生成し、
    前記第1のキー情報集合を前記複数のサブ集合とそれぞれ組み合わせて、前記複数種のキー情報組合せ結果を得るために用いられる請求項11に記載のマンマシン対話装置。
  13. 前記生成モジュールは、
    各種のキー情報組合せ結果に対応する意味候補の確率スコアをそれぞれ決定し、
    前記複数の意味候補を前記確率スコアの高い順に順序付けし、
    解答が検索されるまで、前記複数の意味候補に対して順序付けられた順で解答検索を行い、前記解答に基づいて前記第1の文に対応する応答文を生成するために用いられる請求項12に記載のマンマシン対話装置。
  14. 前記生成モジュールは、
    各種のキー情報組合せ結果に対して、前記キー情報組合せ結果における前記第1のキー情報集合及び前記サブ集合に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定し、
    前記条件付き確率を前記キー情報組合せ結果に対応する意味候補の確率スコアとするために用いられる請求項13に記載のマンマシン対話装置。
  15. 前記生成モジュールは、
    前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を取得し、
    前記共起確率に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定するために用いられる請求項14に記載のマンマシン対話装置。
  16. 前記生成モジュールは、
    前記第1の文が省略形態である確率を取得し、
    前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を取得し、
    前記第1の文が省略形態である確率及び前記共起確率に基づいて、前記第1のキー情報集合が出現するときに、前記サブ集合も出現する条件付き確率を決定するために用いられる請求項14に記載のマンマシン対話装置。
  17. 前記生成モジュールは、
    履歴コーパスを取得し、前記履歴コーパスに基づいて、異なるキー情報間の共起確率を含むキー情報共起データベースを生成し、
    前記キー情報共起データベースを照会することにより、前記第1のキー情報集合のうちの各々の第1のキー情報と前記サブ集合のうちの各々の第2のキー情報との間の共起確率を得るために用いられる請求項15又は16に記載のマンマシン対話装置。
  18. 前記生成モジュールは、
    前記履歴コーパスに対してキー情報マイニングを行って、複数のキー情報を取得し、
    前記複数のキー情報のうち任意の2つのキー情報の前記履歴コーパスでの共起回数を統計し、
    前記共起回数に基づいて、前記任意の2つのキー情報間の共起確率を決定するために用いられる請求項17に記載のマンマシン対話装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサに請求項1〜請求項9のいずれか1項に記載のマンマシン対話方法を実行させるために、前記少なくとも1つのプロセッサによって実行される電子機器。
  20. コンピュータ命令が記憶されている非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1〜請求項9のいずれか1項に記載のマンマシン対話方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
  21. コンピュータに請求項1〜9のいずれか1項に記載のマンマシン対話方法を実行させるコンピュータプログラム。
JP2020196163A 2020-06-02 2020-11-26 マンマシン対話方法、装置、及び機器 Active JP7093825B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010487974.2A CN111651578B (zh) 2020-06-02 2020-06-02 人机对话方法、装置及设备
CN202010487974.2 2020-06-02

Publications (2)

Publication Number Publication Date
JP2021089728A true JP2021089728A (ja) 2021-06-10
JP7093825B2 JP7093825B2 (ja) 2022-06-30

Family

ID=72351114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020196163A Active JP7093825B2 (ja) 2020-06-02 2020-11-26 マンマシン対話方法、装置、及び機器

Country Status (3)

Country Link
US (1) US20210191952A1 (ja)
JP (1) JP7093825B2 (ja)
CN (1) CN111651578B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591470A (zh) * 2021-06-24 2021-11-02 海信视像科技股份有限公司 一种语义理解方法及装置
CN114676691B (zh) * 2022-05-27 2022-09-09 深圳市人马互动科技有限公司 一种识别方法、系统、设备以及计算机可读存储介质
CN115168537B (zh) * 2022-06-30 2023-06-27 北京百度网讯科技有限公司 语义检索模型的训练方法、装置、电子设备及存储介质
CN117235241A (zh) * 2023-11-15 2023-12-15 安徽省立医院(中国科学技术大学附属第一医院) 一种面向高血压问诊随访场景人机交互方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (ja) * 1998-06-18 2000-01-14 Trendy:Kk ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2006079365A (ja) * 2004-09-09 2006-03-23 Ricoh Co Ltd 情報検索システム、情報提供装置、情報検索方法、並びに、プログラムおよび記録媒体
JP2014106927A (ja) * 2012-11-29 2014-06-09 Toyota Motor Corp 情報処理システム
JP2015219583A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 話題決定装置、発話装置、方法、及びプログラム
JP2019040584A (ja) * 2017-04-25 2019-03-14 パナソニックIpマネジメント株式会社 単語拡張方法、単語拡張装置及びプログラム
JP2019521399A (ja) * 2016-06-08 2019-07-25 ロヴィ ガイズ, インコーポレイテッド 会話におけるコンテキスト切替を決定するためのシステムおよび方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
CN105589844B (zh) * 2015-12-18 2017-08-08 北京中科汇联科技股份有限公司 一种用于多轮问答系统中缺失语义补充的方法
CN107402913B (zh) * 2016-05-20 2020-10-09 腾讯科技(深圳)有限公司 先行词的确定方法和装置
US10654380B2 (en) * 2016-11-18 2020-05-19 Microsoft Technology Licensing, Llc Query rewriting and interactive inquiry framework
CN110223692B (zh) * 2019-06-12 2021-08-13 思必驰科技股份有限公司 用于语音对话平台跨技能的多轮对话方法及系统
CN110837548B (zh) * 2019-11-05 2022-11-11 泰康保险集团股份有限公司 答案匹配方法、装置、电子设备及存储介质
CN111177338B (zh) * 2019-12-03 2023-07-21 北京博瑞彤芸科技股份有限公司 一种基于上下文的多轮对话方法
CN111081220B (zh) * 2019-12-10 2022-08-16 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (ja) * 1998-06-18 2000-01-14 Trendy:Kk ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2006079365A (ja) * 2004-09-09 2006-03-23 Ricoh Co Ltd 情報検索システム、情報提供装置、情報検索方法、並びに、プログラムおよび記録媒体
JP2014106927A (ja) * 2012-11-29 2014-06-09 Toyota Motor Corp 情報処理システム
JP2015219583A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 話題決定装置、発話装置、方法、及びプログラム
JP2019521399A (ja) * 2016-06-08 2019-07-25 ロヴィ ガイズ, インコーポレイテッド 会話におけるコンテキスト切替を決定するためのシステムおよび方法
JP2019040584A (ja) * 2017-04-25 2019-03-14 パナソニックIpマネジメント株式会社 単語拡張方法、単語拡張装置及びプログラム

Also Published As

Publication number Publication date
US20210191952A1 (en) 2021-06-24
CN111651578A (zh) 2020-09-11
CN111651578B (zh) 2023-10-03
JP7093825B2 (ja) 2022-06-30

Similar Documents

Publication Publication Date Title
JP7398402B2 (ja) 実体リンキング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7093825B2 (ja) マンマシン対話方法、装置、及び機器
EP3183728B1 (en) Orphaned utterance detection system and method
CN108369580B (zh) 针对屏幕上项目选择的基于语言和域独立模型的方法
CN110674314B (zh) 语句识别方法及装置
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
JP7091430B2 (ja) インタラクション情報推薦方法及び装置
US11907671B2 (en) Role labeling method, electronic device and storage medium
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
US9460081B1 (en) Transcription correction using multi-token structures
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
EP3832492A1 (en) Method and apparatus for recommending voice packet, electronic device, and storage medium
JP7139028B2 (ja) 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
JP2021192283A (ja) 情報照会方法、装置及び電子機器
CN108920649A (zh) 一种信息推荐方法、装置、设备和介质
CN111984774B (zh) 搜索方法、装置、设备以及存储介质
JP2022091122A (ja) 汎化処理方法、装置、デバイス、コンピュータ記憶媒体及びプログラム
JP2022031863A (ja) 単語スロットの認識方法、装置及び電子機器
CN111984775A (zh) 问答质量确定方法、装置、设备和存储介质
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN110659422A (zh) 检索方法、装置、电子设备及存储介质
EP3846164A2 (en) Method and apparatus for processing voice, electronic device, storage medium, and computer program product
JP2022006183A (ja) 言語モデルのトレーニング方法、装置、及び電子機器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220620

R150 Certificate of patent or registration of utility model

Ref document number: 7093825

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150