JP2022544428A - 検索項目書き換え方法、装置、機器および記憶媒体 - Google Patents

検索項目書き換え方法、装置、機器および記憶媒体 Download PDF

Info

Publication number
JP2022544428A
JP2022544428A JP2021545777A JP2021545777A JP2022544428A JP 2022544428 A JP2022544428 A JP 2022544428A JP 2021545777 A JP2021545777 A JP 2021545777A JP 2021545777 A JP2021545777 A JP 2021545777A JP 2022544428 A JP2022544428 A JP 2022544428A
Authority
JP
Japan
Prior art keywords
search
search term
item
term
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021545777A
Other languages
English (en)
Other versions
JP7352640B2 (ja
Inventor
▲錦▼▲芸▼ 雷
世▲強▼ 丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202010600669.XA external-priority patent/CN111797216B/zh
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022544428A publication Critical patent/JP2022544428A/ja
Application granted granted Critical
Publication of JP7352640B2 publication Critical patent/JP7352640B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Operations Research (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【要約】本発明は、検索項目書き換え方法、装置、機器および記憶媒体を開示しており、データ処理技術分野に関し、特に、人工知能、音声技術、インテリジェント検索および深層学習等の技術分野に関するものである。実現するための具体的な技術案は、検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報及び前記オリジナル検索項目の意図情報のうちの少なくとも1つを抽出することと、前記コンテキスト情報及び前記意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定することと、を含み、マシンの前記新規検索項目に対する理解度は、前記オリジナル検索項目に対する理解度よりも高い。本発明の技術によれば、マシンの検索効率、検索正確率および知能化を向上させる【選択図】図1

Description

本発明は、出願日が2020年6月28日であり、出願番号がCN202010600669.Xである中国特許出願に対して優先権の利益を主張するものであり、該出願の全てのコンテンツを引用により本発明に援用する。
本発明は、データ処理の技術分野に関し、特に、人工知能、音声技術、インテリジェント検索および深層学習などの技術分野に関する。具体的に、本発明の実施例は、検索項目書き換え方法、装置、機器および記憶媒体を提供している。
周知されているように、ユーザの口語的表現は多様であることから、音声クエリ(query、検索項目)も多様性が強くて、大量の音声クエリが理解されえず、満足され得ない原因となっている。現在、ほとんどのマップタイプの音声アシスタント製品は、このような状況が発生すると、ほとんどの場合、デフォルト応答又はルールの構成による応答、たとえば、「ちゃんと聞き取れなくて申し訳ありません」なる形態が利用されている。このような応答では、ユーザに、製品が機械的で知能性が足りない感じを与え、更にその上、現在ユーザとの相互作用を中断し、ユーザの体験感を低下させる。
以下は、本明細書で詳細的に説明する主題に対する概要である。本発明の請求項の保護範囲は本概要によって限定されるものではない。
本発明は、検索項目書き換え方法、装置、機器および記憶媒体を提供する。
本発明は、
検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報および前記オリジナル検索項目の意図情報のうちの少なくとも1つを抽出することと、
前記コンテキスト情報および前記意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定することと、を含み、
マシンの前記新規検索項目に対する理解度は、前記オリジナル検索項目に対する理解度よりも高い、
検索項目書き換え方法を提供する。
本発明は、
検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報および前記オリジナル検索項目の意図情報のうちの少なくとも1つを抽出するように構成される情報抽出モジュールと、
前記コンテキスト情報および前記意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定するように構成される検索項目確定モジュールと、を備え、
マシンの前記新規検索項目に対する理解度は、前記オリジナル検索項目に対する理解度よりも高い、
検索項目書き換え装置をさらに提供する。
本発明は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続される記憶装置と、を備え、
前記記憶装置に前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが本発明の実施例のいずれか1項に記載の検索項目書き換え方法を実行可能であるように、前記少なくとも1つのプロセッサに実行される、
電子機器をさらに提供する。
本発明は、
本発明の実施例のいずれか1項に記載の検索項目書き換え方法をコンピュータに実行させるためのコンピュータ命令が記憶されている、
非瞬時性コンピュータ可読記憶媒体をさらに提供する。
図面と詳細的な説明を読んでよく理解すれば、他の態様も把握できる。
図面は、本技術案がよりよく理解されるように提供され、本発明を限定するものではない。
本発明の実施例に係る検索項目書き換え方法のフロー図である。 本発明の実施例に係る別の検索項目書き換え方法のフロー図である。 本発明の実施例に係るさらなる検索項目書き換え方法のフロー図である。 本発明の実施例に係るさらなる検索項目書き換え方法のフロー図である。 本発明の実施例に係るさらなる検索項目書き換え方法のフロー図である。 本発明の実施例に係る新規検索項目のフィードバック効果の概略図である。 本発明の実施例に係る別の新規検索項目のフィードバック効果の概略図である。 本発明の実施例に係る検索項目書き換えモデルの構造概略図である。 本発明の実施例に係るマップ音声アシスタントに適用されるシステムのブロック図である。 本発明の実施例に係る検索項目書き換え装置の構造概略図である。 本発明の実施例に係る検索項目書き換え方法による電子機器のブロック図である。
以下は、図面を参照しながら、本発明の例示的な実施例について説明する。ここで、本発明に係る実施例および実施例に係る構成は、衝突しない限り、それぞれ任意に組み合わせ可能である。同様に、明確化および簡明化のため、以下の説明では公知の機能および構造についての説明を省略した。
図1は、本発明の実施例に係る検索項目書き換え方法のフロー図である。本実施例は、人間とマシンが知能対話を行う場合に適用可能である。当該方法は、検索項目書き換え装置により実行可能であり、当該装置はソフトウェア及び/又はハードウェアの形態で実現可能である。典型的には、当該装置は上記マシンに配置可能である。図1を参照すると、本発明の実施例に係る検索項目書き換え方法は、ステップS110およびステップS120を含む。
ステップS110において、検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報及び当該オリジナル検索項目の意図情報のうちの少なくとも1つを抽出する。
ここで、検索項目書き換え要求は、検索項目に対して書き換えを実行することをトリガーする要求を指す。
当該要求のトリガーイベントは、ユーザが検索項目を入力するイベントであってもよい。
検索効率を向上するために、当該要求のトリガーイベントは、ユーザから入力された検索項目に対してマシンが理解できないことが検知されたというイベントであってもよい。
オリジナル検索項目は、ユーザから入力された書き換え待ちの検索テキストである。
オリジナル検索項目のコンテキスト情報は、オリジナル検索項目のコンテキストを説明する情報である。
コンテキストは、コンテクスト又はセマンティックスに理解してもよい。
一実施例において、オリジナル検索項目のコンテキスト情報を抽出することは、
オリジナル検索項目における語句間の第1語句関係情報を抽出し、当該情報をオリジナル検索項目のコンテキスト情報とすることを含む。
第1語句関係情報は、オリジナル検索項目における語句間の関係を説明する情報を指す。
代替的に、双方向リカレントニューラルネットワーク(Bidirectional Recurrent Neural Networks、Bi-RNN)又は双方向長期短期記憶ネットワーク(Bi-directional Long-Short Term Memory、Bi-LSTM)に基づき、オリジナル検索項目のワードベクトルに従って、オリジナル検索項目の第1語句関係情報を確定する。
オリジナル検索項目の意図情報は、オリジナル検索項目の意図を説明する情報である。
ステップS120において、抽出されたオリジナル検索項目のコンテキスト情報及び意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定する。
ここで、マシンの前記新規検索項目に対する理解度は、前記オリジナル検索項目に対する理解度よりも高い。
マシンは、人間と知能対話を行う機器である。
例示的に、マシンは、スマートスピーカ、音声アシスタントが搭載されている携帯電話などであってもよい。
新規検索項目は、オリジナル検索項目を書き換えることで得られ、且つ、マシンにとってオリジナル検索項目よりも理解しやすい検索項目を指す。
新規検索項目に対するマシンの理解度は、新規検索項目に対するマシンの理解程度を表す。
オリジナル検索項目に対するマシンの理解度は、オリジナル検索項目に対するマシンの理解程度を表す。
マシンワード集合は、マシンが理解できるワードの集合を指す。
一実施例において、オリジナル検索項目のコンテキスト情報及びオリジナル検索項目の意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定することは、
オリジナル検索項目のコンテキスト情報及びオリジナル検索項目の意図情報のうちの少なくとも1つに基づいて、マシンワード集合からターゲットワードを確定することと、
シンタクスに従って、前記ターゲットワードを組み合わせ、新規検索項目をえることと、を含む。
ここで、ターゲットワードは、マシンワード集合から選択され、オリジナル検索項目のコンテキスト情報及びオリジナル検索項目の意図情報のうちの少なくとも1つを説明することに用いられるワードを指す。
本発明の実施例に係る技術案は、オリジナル検索項目のコンテキスト情報及びオリジナル検索項目の意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、マシンより理解され得る新規検索項目を確定することで、マシンの検索効率およびマシンの知能化を向上させ、さらにユーザ体験を向上させる。
また、新規検索項目がセマンティックス次元および意図次元の両方においてオリジナル検索項目とマッチングされるように、オリジナル検索項目のコンテキスト情報およびオリジナル検索項目の意図情報に基づいて、新規検索項目を確定し、これにより、新規検索項目の正確率を向上させる。
図2は、本発明の実施例に係る別の検索項目書き換え方法のフロー図である。本技術案は上記実施例の上で、「前記コンテキスト情報及び前記意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定する」なるステップを具体的に最適化したものである。図2を参照すると、本技術案に係る検索項目書き換え方法はステップS210、ステップS220、ステップS220、ステップS230およびステップS240を含む。
S210において、検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報及びオリジナル検索項目の意図情報のうちの少なくとも1つを抽出する。
S220において、オリジナル検索項目のコンテキスト情報およびマシンワード集合に基づいて、少なくとも2つの検索項目候補を確定する。
ここで、検索項目候補は、新規検索項目となる可能性のある検索項目を指す。
ステップS230において、検索項目候補の意図とオリジナル検索項目の意図とをマッチングする。
ステップS240において、マッチング結果に基づいて、少なくとも2つの検索項目候補から新規検索項目を確定する。
一実施例において、もし検索項目候補の意図とオリジナル検索項目の意図とのマッチングが一致すると、当該検索項目候補を新規検索項目とする。
本技術案は、先ず、オリジナル検索項目のコンテキスト情報およびマシンワード集合に基づいて、少なくとも2つの検索項目候補を確定し、次に、検索項目候補とオリジナル検索項目の意図とのマッチング結果に基づいて、少なくとも2つの検索項目候補から新規検索項目を確定することで、オリジナル検索項目のコンテキスト情報、オリジナル検索項目の意図情報およびマシンワード集合に基づく新規検索項目の確定を実現する。
図3は、本発明の実施例に係るさらなる検索項目書き換え方法のフロー図である。本技術案は、上記の技術案の上で、「オリジナル検索項目のコンテキスト情報およびマシンワード集合に基づいて、少なくとも2つの検索項目候補を確定する」なる上記のステップを具体的に最適化したものである。図3を参照すると、本技術案に係る検索項目書き換え方法は、ステップS310、ステップS320、ステップS330及びステップS340を含む。
ステップS310において、検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報及び当該オリジナル検索項目の意図情報のうちの少なくとも1つを抽出する。
ステップS320において、オリジナル検索項目のコンテキスト情報を事前トレーニングされたシーケンス復号化ネットワークに入力し、少なくとも2つの検索項目候補を出力する。
ここで、シーケンス復号化ネットワークは、事前トレーニングによってマシンワード集合を学習した。
一実施例において、当該シーケンス復号化ネットワークはシーケンス対シーケンス(sequence to sequence)モデルのフレームにおける復号化部のネットワーク層(Network Layer)である。
ステップS330において、検索項目候補の意図とオリジナル検索項目の意図とをマッチングする。
代替的に、検索項目候補の意図とオリジナル検索項目の意図とをマッチングすることは、
少なくとも2つの検索項目候補のうちの各々の検索項目候補の意図とオリジナル検索項目の意図とマッチングすること、又は、
少なくとも2つの検索項目候補のうちの一部の検索項目候補の意図とオリジナル検索項目の意図とをマッチングすること、を含む。
ステップS340において、マッチング結果に基づいて、少なくとも2つの検索項目候補から新規検索項目を確定する。
本技術案は、オリジナル検索項目の語義ベクトルを事前トレーニングされたシーケンス変換ネットワークに入力することで、少なくとも2つの検索項目候補を出力し、ここで、シーケンス変換ネットワークは事前トレーニングによってマシンワード集合を学習した。モデルがオリジナル検索項目と検索項目候補との関係をより正確的に学習できるので、本技術案は、検索項目候補の正確率を向上できる。
図4は本発明の実施例に係るさらなる検索項目書き換え方法のフロー図である。本技術案は、上記の技術案の上で、上記技術案をさらに拡張したものである。図4を参照すると、本技術案に係る検索項目書き換え方法は、ステップS410、ステップS420、ステップS430、ステップS440、ステップS450およびステップS460を含む。
ステップS410において、ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定する。
ここで、サンプル検索項目セットに少なくとも1つの第1検索項目および少なくとも1つの第2検索項目が含まれており、第1検索項目に対するマシンの理解度は第1理解度閾値より高く、第2検索項目に対するマシンの理解度は第2理解度閾値より低く、且つ、第1検索項目と第2検索項目との語義類似度は、所定類似度閾値より大きい。
サンプル検索項目セットは、シーケンス復号化ネットワークをトレーニングするためのサンプルデータである。
第1検索項目は、マシンが理解できる検索項目を指す。
第2検索項目は、マシンが理解できない検索項目を指す。
第1理解度閾値は、マシンが検索項目を理解できる場合、検索項目に関する理解度の最小値を指す。
第2理解度閾値は、マシンが検索項目を理解できない場合、検索項目に関する理解度の最大値を指す。
回答情報は、ユーザから入力された検索項目に基づき、マシンからユーザに回答する情報を指す。
一実施例において、回答情報は、回答の内容であってもよく、回答の信頼性であってもよい。
検索項目シーケンスは、入力時間順に配列される複数の検索項目である。
一実施例において、ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定することは、
ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスから発生時間が連続する少なくとも1つの第1検索項目を確定することと、
上記少なくとも1つの第1検索項目の発生時間と連続しており、且つ第1検索項目の後に発生する少なくとも1つの第2検索項目を検知することと、
少なくとも1つの第1検索項目及び少なくとも1つの第2検索項目に基づいて、サンプル検索項目セットを確定することと、を含む。
一実施例において、ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスから発生時間が連続する少なくとも1つの第1検索項目を確定することは、
検索項目シーケンスのうち検索項目に関連するマシンがユーザにフィードバックする回答内容を確定することと、
もし回答内容が理解できないであれば、当該検索項目を第1検索項目とすることと、
そうでなければ、回答内容に基づき回答の信頼性を確定することと、
確定された信頼性が所定の信頼性閾値より小さければ、当該検索項目を第1検索項目とすることと、
検索項目シーケンスから発生時間が連続する少なくとも1つの第1検索項目を抽出することと、を含む。
ステップS420において、サンプル検索項目セットを利用して初期ネットワークをトレーニングし、シーケンス復号化ネットワークを得る。
ステップS430において、検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報及びオリジナル検索項目の意図情報のうちの少なくとも1つを抽出する。
ステップS440において、抽出されたコンテキスト情報を事前トレーニングされたシーケンス復号化ネットワークに入力し、少なくとも2つの検索項目候補を出力する。
ここで、シーケンス復号化ネットワークは、事前トレーニングによってマシンワード集合を学習した。
ステップS450において、検索項目候補の意図とオリジナル検索項目の意図とをマッチングする。
ステップS460において、マッチング結果に基づいて、少なくとも2つの検索項目候補から新規検索項目を確定する。
代替的に、S410およびS420の実行主体は、S430ないしS450の実行主体と同じであってもよく、異なっていてもよい。
本技術案は、ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスから、サンプル検索項目セットを確定することで、サンプル検索項目セットの自動確定を実現する。
サンプル検索項目セットの正確率をさらに向上させるためには、ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定した後に、本技術案は、
もしサンプル検索項目セットに少なくとも2つの第1検索項目が含まれている場合、サンプル検索項目セットにおける各第1検索項目とサンプル検索項目セットにおける第2検索項目との類似度を算出することと、
算出された類似度に基づいて、サンプル検索項目セットにおける第1検索項目をフィルタリングすることと、をさらに含む。
当該技術構成に基づき、本技術案は、サンプル検索項目セットにおける各第1検索項目とサンプル検索項目セットにおける第2検索項目との類似度によって、サンプル検索項目セットにおける第1検索項目をフィルタリングすることで、サンプル検索項目セットにおける間違っている検索項目をフィルタアウトする。
図5は、本発明の実施例に係るさらなる検索項目書き換え方法のフロー図である。本技術案は、上記の技術案の上で、「オリジナル検索項目のコンテキスト情報を抽出する」なるステップを具体的に最適化したものである。図5を参照すると、本技術案に係る検索項目書き換え方法は、ステップS510、ステップS510、ステップS510およびステップS510を含む。
ステップS510において、検索項目書き換え要求に応答して、オリジナル検索項目の関連検索項目が存在する場合、オリジナル検索項目における語句間の第1語句関係情報、および関連検索項目における語句間の第2語句関係情報を抽出する。
ここで、関連検索項目は、オリジナル検索項目と語義的関連性のある検索項目を指す。
一実施例において、関連検索項目の確定は、
オリジナル検索項目とその他の検索項目との入力時間の間隔に基づいて、その他の検索項目からオリジナル検索項目の関連検索項目を確定することを含んでもよい。
その他の検索項目は、ユーザから入力された、オリジナル検索項目を除いた検索項目を指す。
第2語句関係情報は、関連検索項目における語句間関係を説明する情報である。
ステップS520において、抽出された第1語句関係情報および第2語句関係情報に基づいて、オリジナル検索項目のコンテキスト情報を確定する。
一実施例において、抽出された第1語句関係情報および第2語句関係情報に基づいて、オリジナル検索項目のコンテキスト情報を確定することは、
シーケンス対シーケンス(sequence to sequence)モデルフレームのうちの符号化部のネットワーク層に基づき、抽出された第1語句関係情報および第2語句関係情報に基づいて、オリジナル検索項目のコンテキスト情報を確定することを含む。
ステップS530において、オリジナル検索項目の意図情報を抽出する。
ステップS540において、コンテキスト情報および意図情報と、マシンワード集合とに基づいて、新規検索項目を確定する。
ここで、マシンの前記新規検索項目に対する理解度は、前記オリジナル検索項目に対する理解度よりも高い。
ここで、マシンの前記新規検索項目に対する理解度は、前記オリジナル検索項目に対する理解度よりも高い。
本技術案は、オリジナル検索項目と関連検索項目との語義関係をもう一層抽出してオリジナル検索項目のコンテキスト情報とすることで、コンテキスト情報の正確率をもう一層向上させる。
さらに、前記オリジナル検索項目の語義情報及び前記オリジナル検索項目の意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定した後に、本技術案は、
ヒントテキスト又は2度目問い合わせの形態によって、前記新規検索項目をユーザにフィードバックすることと、
ユーザの肯定応答を取得した後に、前記新規検索項目に基づいて検索を行い、検索結果をユーザにフィードバックすることと、をさらに含む。
例示的に、もし確定された新規検索項目が「音量を下げる」なるものであれば、図6を参照して、ヒントテキストの形態で、上記新規検索項目をユーザに表示、又は、図7を参照して、2度目問い合わせの形態で、確定された新規検索項目をユーザにフィードバックする。
当該技術構成によれば、本技術案は、ヒントテキスト又は2度目問い合わせの形態によって、上記新規検索項目をユーザにフィードバックし、ユーザの肯定応答を取得した後に、新規検索項目に基づいて検索を行い、検索結果をユーザにフィードバックすることで、知能対話の融通性を向上させる。
本技術案は、上記の技術案の上で、提出した代替的な技術案である。本技術案に係る検索項目書き換え方法は、
もしマシンがユーザから入力されたオリジナル検索項目を理解できないと、当該オリジナル検索項目を事前トレーニングされた検索項目書き換えモデルに入力してマシンより理解され得る新規検索項目を出力することを含む。
図8を参照すると、上記検索項目書き換えモデルは、シーケンス変換ネットワークおよび意図一致性推定ネットワークを備える。ここで、シーケンス変換ネットワークは、シーケンス対シーケンス(sequence to sequence)のモデルであり、当該モデルは、集中力メカニズムを盛り込んだエンコーダ/デコーダ(Encoder-Decoder)の符号化/復号化フレームにより実現され、当該フレームの符号化部および復号化部は両方とも長期短期記憶(Long-Short Term Memory、LSTM)ネットワークを採用する。シーケンス変換ネットワークのうちのシーケンス符号化ネットワークは当該符号化部に対応し、シーケンス変換ネットワークのうちのシーケンス復号化ネットワークは当該復号化部に対応する。意図一致性推定ネットワークは、TextCNNモデルを使用する。TextCNNは、畳み込みニューラルネットワークでテキストに対して分類を行うアルゴリズムである。
検索項目書き換えモデルのトレーニングサンプルの確定は、
検索項目に基づき、マシンがユーザにフィードバックする情報に基づいて、ユーザが入力した検索項目シーケンスから、サンプルデータセットを確定することを含む。
ここで、サンプル検索項目セットには、少なくとも1つの第1検索項目および少なくとも1つの第2検索項目が含まれており、第1検索項目に対するマシンの理解度は第1理解度閾値より高く、第2検索項目に対するマシンの理解度は第2理解度閾値より低く、且つ、第1検索項目と前記第2検索項目の語義類似度は、所定類似度閾値より大きい。
次いで、図8を参照して、オリジナル検索項目に少なくとも1つの関連検索項目が存在することを例とすると、検索項目書き換えモデルのトレーニングロジックは、以下のどおりに、
ベクトル変換層に基づき、第1検索項目とするオリジナル検索項目および少なくとも1つの関連検索項目に対してベクトル変換を行い、各検索項目に対応するベクトル表示を得ることと、
得られたベクトル表示を初期変換ネットワークおよび初期推定ネットワークにそれぞれ入力することと、に説明してもよい。
ここで、初期変換ネットワークにおける実行ロジックは、以下のどおりに、
Bi-LSTMネットワークに基づき、各検索項目に対応するベクトル表示に基づいて、各検索項目における語句間の語句関係情報を抽出することと、
符号化部のLSTMネットワークに基づき、各検索項目の語句間の語句関係情報に基づいて、各検索項目のコンテキストベクトルをcないしcにそれぞれ確定することと、
集中力メカニズムにより第2検索項目における語句のワードベクトルxと各検索項目のコンテキストベクトルとの相関性を算出してαとし、そして相関性の重みに従って各検索項目のコンテキストベクトルを合算することで全般的コンテキストベクトルを得、cattentionとすることと、
上記ワードベクトルxとcattentionを綴り合わせ復号化部のLSTMネットワークに入力し、発生する候補語句を得、x′とすることと、
発生されたx′で第2検索項目における語句をフィッティングし、最尤推定を行い、上記検索項目変換ネットワークを得ることと、に説明してもよい。
初期推定ネットワークの執行ロジックは以下のどおりに、
各第1検索項目のワードベクトルに対してプーリング操作を行い、各第1検索項目のプーリングベクトルを得ることと、
入力時間順に各プーリングベクトルに対して綴り合わせを行い、マトリックスQを得ることと、
発生された検索項目候補q′に対しても上記操作を行い、それをマトリックスQの最後の一行に綴り合わせ、最終の入力マトリックスを得ることと、
最終の入力マトリックスをTextCNNモデルに入力し、検索項目候補の意図情報を出力することと、
第1検索項目の意図情報および検索項目候補の意図情報をフィッティングし、上記意図一致性推定ネットワークを得ることと、に説明してもよい。
上記モデルのトレーニング過程は、以下のモデリング公式で説明してもよい。
Figure 2022544428000002

ここで、qsatisfyは第2検索項目に対応し、qunsatisfyは第1検索項目に対応し、Qsatisfyは第2検索項目集に対応し、
Figure 2022544428000003

は第2検索項目の意図情報に対応し、
Figure 2022544428000004

は第1検索項目の意図情報に対応し、yは一致性識別子であり、例えば、yが1であると、
Figure 2022544428000005


Figure 2022544428000006

とが一致していることを表し、yが0であると、
Figure 2022544428000007


Figure 2022544428000008

とが不一致であることを表す。
Figure 2022544428000009

は、qunsatisfyが入力されると、qsatisfyを前提とする最尤関数が出力されることを指す。
Figure 2022544428000010

は、qunsatisfyが入力されると、qsatisfyの条件確率が出力されることに対応する。
Figure 2022544428000011

は、
Figure 2022544428000012


Figure 2022544428000013

との一致性確率に対応する。wおよびwは重みである。
典型的には、当該技術案は、マップ音声アシスタントに適用可能であり、全般フレームは図9を参照する。
本技術案は、検索項目書き換えモデルに基づき検索項目に対する書き換えを自動的に実現することから、手動でルールを設計および対応する応答を配置することなく、人力の消耗を極めて削減した。
ユーザから入力された検索項目に基づいて応答を柔軟に発生し、感知できる知能度を加えて、ユーザの体験を向上させた。
検索項目のテキストコンテンツおよび意図に基づいて類似検索項目の確定を行うことで、ユーザが要望する情報をより速くて正確的に取得するのに役立ち、ユーザの相互作用の体験を向上させる。
図10は、本発明の実施例に係る検索項目書き換え装置の構造概略図である。図10を参照すると、本発明の実施例に係る検索項目書き換え装置1000は、
検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報及び前記オリジナル検索項目の意図情報のうちの少なくとも1つを抽出することに用いられる情報抽出モジュール1001と、
前記コンテキスト情報及び前記意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定することに用いられる検索項目確定モジュール1002と、を備え、
ここで、マシンの前記新規検索項目に対する理解度は、前記オリジナル検索項目に対する理解度よりも高い。
本発明の実施例に係る技術案は、オリジナル検索項目のコンテキスト情報及びオリジナル検索項目の意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、マシンより理解され得る新規検索項目を確定することで、マシンの検索効率およびマシンの知能化を向上させ、さらにユーザ体験を向上させる。
また、新規検索項目がセマンティックス次元および意図次元の両方においてオリジナル検索項目とマッチングされるように、オリジナル検索項目のコンテキスト情報およびオリジナル検索項目の意図情報に基づいて、新規検索項目を確定し、これにより、新規検索項目の正確率を向上させる。
さらに、前記検索項目確定モジュールは、
前記コンテキスト情報および前記マシンワード集合に基づいて、少なくとも2つの検索項目候補を確定することに用いられる検索項目候補確定ユニットと、
前記検索項目候補の意図と前記オリジナル検索項目の意図とをマッチングすることに用いられる意図マッチングユニットと、
マッチング結果に基づいて、前記少なくとも2つの検索項目候補から前記新規検索項目を確定することに用いられる新規検索項目確定ユニットと、を備える。
さらに、前記検索項目候補確定ユニットは、
前記コンテキスト情報を事前トレーニングされたシーケンス符号化ネットワークに入力し、前記少なくとも2つの検索項目候補を出力することに用いられる検索項目確定サブユニットを備え、
ここで、前記シーケンス符号化ネットワークは、事前トレーニングによって前記マシンワード集合を学習した。
さらに、前記装置は、
前記オリジナル検索項目の語義ベクトルを事前トレーニングされたシーケンス変換ネットワークに入力する前に、ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定することに用いられるサンプル確定モジュールと、
ここで、前記サンプル検索項目セットに少なくとも1つの第1検索項目および少なくとも1つの第2検索項目が含まれており、前記第1検索項目に対するマシンの理解度が第1理解度閾値より大きく、前記第2検索項目に対するマシンの理解度が第2理解度閾値より小さく、且前記第1検索項目と前記第2検索項目との語義類似度は所定類似度閾値より大きいであり、
前記サンプル検索項目セットを利用して初期ネットワークをトレーニングし、前記シーケンス変換ネットワークを得ることに用いられるモデルトレーニングモジュールと、をさらに備える。
さらに、前記サンプル確定モジュールは、
ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスから発生時間が連続する少なくとも1つの第1検索項目を確定することに用いられる第1検索項目確定ユニットと、
前記第1検索項目の発生時間と連続しており、且つ、前記第1検索項目以降に発生する少なくとも1つの第2検索項目を検知することに用いられる第2検索項目確定ユニットと、
前記少なくとも1つの第1検索項目および前記少なくとも1つの第2検索項目に基づいて、前記サンプル検索項目セットを確定することに用いられるサンプル確定ユニットと、を備える。
さらに、前記装置は、
前記ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定した場合、もし前記サンプル検索項目セットに少なくとも2つの第1検索項目が含まれている場合、前記サンプル検索項目セットにおける各第1検索項目と前記サンプル検索項目セットにおける第2検索項目との類似度を算出することに用いられる類似算出モジュールと、
算出された類似度に基づいて、前記サンプル検索項目セットにおける少なくとも2つの第1検索項目をフィルタリングすることに用いられる検索項目フィルタリングモジュールと、をさらに備える。
さらに、もし前記オリジナル検索項目に関連検索項目が存在する場合、前記情報抽出モジュールは、
前記オリジナル検索項目における語句間の第1語句関係情報、および前記関連検索項目における語句間の第2語句関係情報を抽出することに用いられる情報抽出ユニットと、
前記第1語句関係情報および前記第2語句関係情報に基づいて、前記オリジナル検索項目のコンテキスト情報を確定することに用いられる情報確定ユニットと、を備える。
さらに、前記装置は、
前記オリジナル検索項目の語義情報及び前記オリジナル検索項目の意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定した後に、ヒントテキスト又は2度目問い合わせの形態によって、前記新規検索項目をユーザにフィードバックすることに用いられる検索項目フィードバックモジュールと、
ユーザの肯定応答を取得した後に、前記新規検索項目に基づいて検索を行い、検索結果をユーザにフィードバックすることに用いられる検索モジュールと、をさらに備える。
本発明の実施例によれば、電子機器および可読記憶媒体をさらに提供している。
図11に示すように、本発明の実施例に係る検索項目書き換え方法による電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータおよびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブル機器及びその他の類似的なコンピューティング機器などの様々な形態のモバイル機器を表すこともできる。本明細書に記載の構成要素、それらの接続及び関係、ならびにそれらの機能は、単に例示的なものであり、本明細書に記載及び/又は要求される本開示の実現を制限することを意図するものではない。
図11に示すように、当該電子機器は、1つの又は複数のプロセッサ1101と、記憶装置1102と、およびおよび高速インターフェースと低速インターフェースを含める各構成要素の接続に用いられるインターフェースと、を備える。各構成要素は、異なるバスにより相互接続され、且つ、共通のマザーボードに設置または必要に応じてその他の形態で設置してもよい。プロセッサは、記憶装置に記憶される命令または記憶装置におけるインターフェースに結合される表示装置などの外部入力/出力装置にグラフィカルユーザインタフェース(Graphical User Interface、GUI)のグラフィック情報を表示する命令を含めて、電子機器で実行される命令に対して処理を行う。別の実施形態において、必要に応じて、複数のプロセッサ及び/又は複数のバスと、複数の記憶装置とを共に使用してもよい。同様に、例えば、サーバアレイ、ブレードサーバセット、又は多重プロセッサシステムとして、複数の電子機器を接続して各機器で必要となる一部の操作を提供してもよい。図11は1つのプロセッサ1101を例とする。
記憶装置1102は、本発明に係る非瞬時性コンピュータ可読記憶媒体である。前記記憶装置は、本発明に係る検索項目書き換え方法が前記少なくとも1つのプロセッサにより実行されるように、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されている。本発明の非瞬時性コンピュータ可読記憶媒体は、本発明に係る検索項目書き換え方法がコンピュータより実されるためのコンピュータ命令が記憶されている。
記憶装置1102は、非瞬時性コンピュータ可読記憶媒体として、非瞬時性ソフトウェアプログラム、非瞬時性コンピュータにより実行可能なプログラムおよびモジュールに適用可能であり、例えば、図面10に示す情報抽出モジュール1001および検索項目確定モジュール1002などの本発明の実施例における検索項目書き換え方法に対応するプログラム命令/モジュールに適用可能である。プロセッサ1101は、記憶装置1102に記憶されている非瞬時性ソフトウェアプログラム、命令およびモジュールを実行することで、サーバの様々な機能応用およびデータ処理を実行し、即ち、上記方法の実施例に係る検索項目書き換え方法を実現する。
記憶装置1102は、プログラム記憶エリアおよびデータ記憶エリアを含んでもよいが、ここで、プログラム記憶エリアにはオペレーティングシステム、少なくとも1つの機能に要求されるアプリケーションプログラムが記憶されてもよく、データ記憶エリアには、本発明の実施例に係るデータ処理方法による電子機器の使用によって発生されるデータなどが記憶されてもよい。また、記憶装置802には、高速ランダムアクセスメモリが含まれてもよく、非瞬時性記憶装置、例えば、少なくとも1つのディスク記憶装置、フラッシュ記憶装置またはその他の非瞬時性固体記憶装置が含まれてもよい。いくつかの実施例において、記憶装置1102は、代替的に、プロセッサ1101に対して遠距離で設置される記憶装置を含んでもよいが、これらの遠距離記憶装置は、ネットワークを介して検索項目書き換えを実現する電子機器に接続されてもよい。上記ネットワークの例としては、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワークおよびこれらの組み合わせを含んでもよいが、これらに限定されるものではない。
検索項目書き換え方法による電子機器は、入力装置1103および出力装置1104をさらに備える。プロセッサ1101と、記憶装置1102と、入力装置1103と、および出力装置1104とは、バス又はその他の形態によって接続してもよく、図11では、バスによる接続を例とする。
入力装置1103は、入力されるデータ又は文字符号情報を受信可能、およびデータ処理方法による電子機器のユーザ設置および機能控制に関連するキー信号の入力を発生可能であり、例えば、タッチスクリーン、キーパッド、マウス、ポインティングスティック、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置1104は、表示装置、補助照明機器、例えば、発光ダイオード(Light Emitting Diode、LED)、及び触覚フィードバック装置、例えば、振動モータなどが含まれてもよい。当該表示装置には、液晶(Liquid Crystal Display、LCD)ディスプレイ、発光ダイオード(Light Emitting Diode、LED)ディスプレイ及びプラズマディスプレイを含んでもよいが、これらに限定されるものではない。いくつかの実施形態において、表示装置はタッチスクリーンであってもよい。
本明細書に記載の上記システムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせによって実現可能である。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んでもよく、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈可能であり、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を当該記憶システム、当該少なくとも1つの入力装置、および当該少なくとも1つの出力装置に伝送可能である。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)には、プログラマブルプロセッサの機械命令が含まれており、高レベルプロセス及び/又はオブジエクト向けのプログラミング言語及び/又はアセンブラ言語/機械言語を通じてこれらのコンピューティングプログラムを実施可能である。本明細書で使用される用語「機械可読媒体」および「コンピュータ可読媒体」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置、例えば、ディスク、光ディスク、記憶装置、プログラマブルロジック機器(programmable logic device、PLD)を指し、機械可読信号となる機械命令を受信する機械可読媒体を含む。用語「機械可読信号」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとの相互作用を提供するために、本明細書に記載のシステム及び技術はコンピュータで実施されてもよく、当該コンピュータは、例えば、陰極線管(Cathode Ray Tube、CRT)又は液晶ディスプレイ(Liquid Crystal Display、LCD)モニタなどのユーザに情報を表示するための表示装置と、キーボードと、例えば、マウス又はトラックボールなどのポインティング機器(Pointing device)と、を有しており、ユーザは、当該キーボード及び当該ポインティング機器を介してコンピュータに入力を提供してもよい。ユーザとの相互作用を提供するために、その他のタイプの装置を使用してもよく、例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックのいずれの形態の感覚フィードバックであってもよく、音声入力又は触覚入力を含むいずれの形態でユーザからの入力を受信してもよい。
本明細書に記載のシステムおよび技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、又は、ミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又は、フロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィックスユーザインターフェース、又は、ネットワークブラウザを有するユーザコンピュータ、ユーザは当該グラフィックスユーザインターフェース又は当該ネットワークブラウザを介して本明細書に記載のシステムおよび技術の実施形態と相互作用してもよい)、又は、これらのバックエンド構成要素、ミドルウェア構成要素、又は、フロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムで実施されてもよい。システムの構成要素は、任意の形態又は媒体によるデジタルデータ通信(例えば、通信ネットワーク)によって相互接続されてもよい。通信ネットワークの例には、ローカルエリアネットワーク(Local Area Network、LAN)、ワイドエリアネットワーク(Wide Area Network、WAN)、ブロックチェーンネットワーク(Blockchain Network)およびインターネットが含まれる。
コンピュータシステムは、クライアントおよびサーバを備えてもよい。クライアントとサーバは、普通、互いに遠く離れており、通常、通信ネットワークを介して相互作用を実行する。それぞれのコンピュータで稼働し、互いにクライアント‐サーバ関係を有するコンピュータプログラムによってクライアントとサーバの関係を発生する。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、これはクラウドコンピューティングサービスシステムにおける1つのホスト製品として、従来の物理ホストと仮想専用サーバ(Virtual Private Server、VPS)サービスにおける、管理の難易度が高く、業務の拡張性が弱いという欠点を解決した。
本発明の技術によれば、マシンの検索効率、検索正確率および知能化を向上させた。なお、上記の様々な形態のプロセスを使用して、ステップを並べ替え、追加又は削除できる。例えば、本発明の開示に記載の各ステップは、並行的に実行してもよく、順次的に実行してもよく、異なる順序で実行してもよく、本発明に開示の技術案で要望される結果が達成できる限り、本明細書において、これらに限定されるものではないことを理解すべきである。
なお、本発明について、上記の実施形態を通じて比較的に詳しく説明したが、本発明は、単に上記の実施形態に限定されず、本発明の技術的思想から逸脱することなく、より多くの他の均等な実施形態を包含することできることに留意されたい。本発明の範囲は、添付の特許請求の範囲によって規定される。本発明の範囲は、添付の特許請求の範囲によって規定される。
さらに、前記検索項目候補確定ユニットは、
前記コンテキスト情報を事前トレーニングされたシーケンス複合化ネットワークに入力し、前記少なくとも2つの検索項目候補を出力することに用いられる検索項目確定サブユニットを備え、
ここで、前記シーケンス複合化ネットワークは、事前トレーニングによって前記マシンワード集合を学習した。

Claims (18)

  1. 検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報及び前記オリジナル検索項目の意図情報のうちの少なくとも1つを抽出することと、
    前記コンテキスト情報及び前記意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定することと、を含み
    マシンの前記新規検索項目に対する理解度は、前記オリジナル検索項目に対する理解度よりも高い、
    検索項目書き換え方法。
  2. 前記コンテキスト情報および前記意図情報と、マシンワード集合とに基づいて、新規検索項目を確定することは、
    前記コンテキスト情報および前記マシンワード集合に基づいて、少なくとも2つの検索項目候補を確定することと、
    前記検索項目候補の意図と前記オリジナル検索項目の意図とをマッチングすることと、
    マッチング結果に基づいて、前記少なくとも2つの検索項目候補から前記新規検索項目を確定することと、を含む、
    請求項1に記載の検索項目書き換え方法。
  3. 前記コンテキスト情報および前記マシンワード集合に基づいて、少なくとも2つの検索項目候補を確定することは、
    前記コンテキスト情報を事前トレーニングされたシーケンス符号化ネットワークに入力し、前記少なくとも2つの検索項目候補を出力することと、を含み、
    前記シーケンス符号化ネットワークは、事前トレーニングによって前記マシンワード集合を学習した、
    請求項2に記載の検索項目書き換え方法。
  4. 前記オリジナル検索項目の語義ベクトルを事前トレーニングされたシーケンス変換ネットワークに入力する前に、
    ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定することと、
    前記サンプル検索項目セットを利用して初期ネットワークをトレーニングし、前記シーケンス変換ネットワークを得ることと、をさらに含み、
    前記サンプル検索項目セットに、少なくとも1つの第1検索項目および少なくとも1つの第2検索項目が含まれ、マシンの前記第1検索項目に対する理解度が第1理解度閾値よりも大きく、マシンの前記第2検索項目に対する理解度が第2理解度閾値よりも小さく、且つ、前記第1検索項目と前記第2検索項目との語義類似度が所定類似度閾値よりも大きい、
    請求項3に記載の検索項目書き換え方法。
  5. ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定することは、
    ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスから発生時間が連続する少なくとも1つの第1検索項目を確定することと、
    前記第1検索項目の発生時間と連続し、且つ、前記第1検索項目以降に発生する少なくとも1つの第2検索項目を検知することと、
    前記少なくとも1つの第1検索項目および前記少なくとも1つの第2検索項目に基づいて、前記サンプル検索項目セットを確定することと、を含む、
    請求項4に記載の検索項目書き換え方法。
  6. ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定した後に、
    前記サンプル検索項目セットに少なくとも2つの第1検索項目が含まれている場合、前記サンプル検索項目セットにおける各第1検索項目と前記サンプル検索項目セットにおける第2検索項目との類似度を算出することと、
    算出された類似度に基づいて、前記サンプル検索項目セットにおける少なくとも2つの第1検索項目をフィルタリングすることと、をさらに含む、
    請求項4に記載の検索項目書き換え方法。
  7. 前記オリジナル検索項目に関連検索項目が存在する場合、前記オリジナル検索項目のコンテキスト情報を抽出することは、
    前記オリジナル検索項目における語句間の第1語句関係情報、および前記関連検索項目における語句間の第2語句関係情報を抽出することと、
    前記第1語句関係情報および前記第2語句関係情報に基づいて、前記オリジナル検索項目のコンテキスト情報を確定することと、を含む、
    請求項1~6のいずれか1項に記載の検索項目書き換え方法。
  8. 前記オリジナル検索項目の語義情報及び前記オリジナル検索項目の意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定した後に、
    ヒントテキスト又は2度目問い合わせの形態によって、前記新規検索項目をユーザにフィードバックすることと、
    ユーザの肯定応答を取得した後に、前記新規検索項目に基づいて検索を行い、検索結果をユーザにフィードバックすることと、をさらに含む、
    請求項1~6のいずれか1項に記載の検索項目書き換え方法。
  9. 検索項目書き換え要求に応答して、オリジナル検索項目のコンテキスト情報及び前記オリジナル検索項目の意図情報のうちの少なくとも1つを抽出するように構成される情報抽出モジュールと、
    前記コンテキスト情報及び前記意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定するように構成される検索項目確定モジュールと、を備え、
    マシンの前記新規検索項目に対する理解度は、前記オリジナル検索項目に対する理解度よりも高い、
    検索項目書き換え装置。
  10. 前記検索項目確定モジュールは、
    前記コンテキスト情報および前記マシンワード集合に基づいて、少なくとも2つの検索項目候補を確定するように構成される検索項目候補確定ユニットと、
    前記検索項目候補の意図と前記オリジナル検索項目の意図とをマッチングするように構成される意図マッチングユニットと、
    マッチング結果に基づいて、前記少なくとも2つの検索項目候補から前記新規検索項目を確定するように構成される新規検索項目確定ユニットと、を備える、
    請求項9に記載の検索項目書き換え装置。
  11. 前記検索項目候補確定ユニットは、
    前記コンテキスト情報を事前トレーニングされたシーケンス符号化ネットワークに入力し、前記少なくとも2つの検索項目候補を出力するように構成される検索項目確定サブユニットを備え、
    前記シーケンス符号化ネットワークは、事前トレーニングによって前記マシンワード集合を学習した、
    請求項10に記載の検索項目書き換え装置。
  12. 前記オリジナル検索項目の語義ベクトルを事前トレーニングされたシーケンス変換ネットワークに入力する前に、ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定するように構成されるサンプル確定モジュールと、
    前記サンプル検索項目セットを利用して初期ネットワークをトレーニングし、前記シーケンス変換ネットワークを得るように構成されるモデルトレーニングモジュールと、をさらに備え、
    前記サンプル検索項目セットに、少なくとも1つの第1検索項目および少なくとも1つの第2検索項目が含まれ、マシンの前記第1検索項目に対する理解度が第1理解度閾値よりも大きく、マシンの前記第2検索項目に対する理解度が第2理解度閾値よりも小さく、且つ、前記第1検索項目と前記第2検索項目との語義類似度が所定類似度閾値よりも大きい、
    請求項11に記載の検索項目書き換え装置。
  13. 前記サンプル確定モジュールは、
    ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスから発生時間が連続する少なくとも1つの第1検索項目を確定するように構成される第1検索項目確定ユニットと、
    前記第1検索項目の発生時間と連続し、且つ、前記第1検索項目発生に発生する少なくとも1つの第2検索項目を検知するように構成される第2検索項目確定ユニットと、
    前記少なくとも1つの第1検索項目および前記少なくとも1つの第2検索項目に基づいて、前記サンプル検索項目セットを確定するように構成されるサンプル確定ユニットと、を備える、
    請求項12に記載の検索項目書き換え装置。
  14. 前記ユーザにフィードバックしたマシンの回答情報に基づいて、ユーザが入力した検索項目シーケンスからサンプル検索項目セットを確定した後に、前記サンプル検索項目セットに少なくとも2つの第1検索項目が含まれている場合、前記サンプル検索項目セットにおける各第1検索項目と前記サンプル検索項目セットにおける第2検索項目との類似度を算出するように構成される類似算出モジュールと、
    算出された類似度に基づいて、前記サンプル検索項目セットにおける少なくとも2つの第1検索項目をフィルタリングするように構成される検索項目フィルタリングモジュールと、をさらに備える、
    請求項12に記載の検索項目書き換え装置。
  15. 前記オリジナル検索項目に関連検索項目が存在する場合、前記情報抽出モジュールは、
    前記オリジナル検索項目における語句間の第1語句関係情報および前記関連検索項目における語句間の第2語句関係情報を抽出するように構成される情報抽出ユニットと、
    前記第1語句関係情報および前記第2語句関係情報に基づいて、前記オリジナル検索項目のコンテキスト情報を確定するように構成される情報確定ユニットと、を備える、
    請求項9~14のいずれか1項に記載の検索項目書き換え装置。
  16. 前記オリジナル検索項目の語義情報及び前記オリジナル検索項目の意図情報のうちの少なくとも1つと、マシンワード集合とに基づいて、新規検索項目を確定した後に、ヒントテキスト又は2度目問い合わせの形態によって、前記新規検索項目をユーザにフィードバックするように構成される検索項目フィードバックモジュールと、
    ユーザの肯定応答を取得した後に、前記新規検索項目に基づいて検索を行い、検索結果をユーザにフィードバックするように構成される検索モジュールと、をさらに備える、
    請求項9~14のいずれか1項に記載の検索項目書き換え装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続される記憶装置と、を備え、
    前記記憶装置に前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、
    前記命令は、前記少なくとも1つのプロセッサが請求項1~8のいずれか1項に記載の検索項目書き換え方法を実行可能であるように、前記少なくとも1つのプロセッサに実行される、
    電子機器。
  18. 請求項1~8のいずれか1項に記載の検索項目書き換え方法をコンピュータに実行させるためのコンピュータ命令が記憶されている、
    非瞬時性コンピュータ可読記憶媒体。
JP2021545777A 2020-06-28 2020-11-13 検索項目書き換え方法、装置、機器および記憶媒体 Active JP7352640B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010600669.X 2020-06-28
CN202010600669.XA CN111797216B (zh) 2020-06-28 2020-06-28 检索项改写方法、装置、设备以及存储介质
PCT/CN2020/128554 WO2022000934A1 (zh) 2020-06-28 2020-11-13 检索项改写方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
JP2022544428A true JP2022544428A (ja) 2022-10-19
JP7352640B2 JP7352640B2 (ja) 2023-09-28

Family

ID=77495450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021545777A Active JP7352640B2 (ja) 2020-06-28 2020-11-13 検索項目書き換え方法、装置、機器および記憶媒体

Country Status (4)

Country Link
US (1) US12079215B2 (ja)
EP (1) EP3961424A4 (ja)
JP (1) JP7352640B2 (ja)
KR (1) KR20210104909A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024049851A1 (en) * 2022-08-29 2024-03-07 Unnanu, Inc. System and method for searching media or data based on contextual weighted keywords
CN116894431B (zh) * 2023-09-07 2024-01-09 腾讯科技(深圳)有限公司 文本处理模型训练方法、文本改写方法及装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018116728A (ja) * 2010-01-18 2018-07-26 アップル インコーポレイテッド インテリジェント自動アシスタント
WO2019235103A1 (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3044397A (en) 1996-06-21 1998-01-07 Kdl Technologies Limited Apparatus and method for generating optimal search queries
US8055669B1 (en) 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US8375048B1 (en) * 2004-01-20 2013-02-12 Microsoft Corporation Query augmentation
US7634462B2 (en) * 2005-08-10 2009-12-15 Yahoo! Inc. System and method for determining alternate search queries
US8694483B2 (en) * 2007-10-19 2014-04-08 Xerox Corporation Real-time query suggestion in a troubleshooting context
US7831588B2 (en) * 2008-02-05 2010-11-09 Yahoo! Inc. Context-sensitive query expansion
US20100094835A1 (en) * 2008-10-15 2010-04-15 Yumao Lu Automatic query concepts identification and drifting for web search
US8190601B2 (en) * 2009-05-22 2012-05-29 Microsoft Corporation Identifying task groups for organizing search results
US9092485B2 (en) * 2010-04-19 2015-07-28 Facebook, Inc. Dynamic suggested search queries on online social networks
US20110314001A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Performing query expansion based upon statistical analysis of structured data
US9330083B2 (en) * 2012-02-14 2016-05-03 Facebook, Inc. Creating customized user dictionary
US20130282682A1 (en) * 2012-04-18 2013-10-24 Yahoo! Inc. Method and System for Search Suggestion
US8954360B2 (en) 2012-10-16 2015-02-10 Sap Se Semantic request normalizer
US10248967B2 (en) * 2015-09-25 2019-04-02 Microsoft Technology Licensing, Llc Compressing an original query while preserving its intent
US10654380B2 (en) * 2016-11-18 2020-05-19 Microsoft Technology Licensing, Llc Query rewriting and interactive inquiry framework
CN108227955A (zh) 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种基于用户历史搜索推荐输入联想的方法及装置
TWI679548B (zh) * 2018-05-09 2019-12-11 鼎新電腦股份有限公司 虛擬助理的自動學習方法及系統
US11580145B1 (en) * 2018-09-25 2023-02-14 Amazon Technologies, Inc. Query rephrasing using encoder neural network and decoder neural network
CN110990578A (zh) * 2018-09-30 2020-04-10 北京奇虎科技有限公司 一种改写模型的构建方法及装置
CN109635197B (zh) 2018-12-17 2021-08-24 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质
US12086541B2 (en) * 2019-09-04 2024-09-10 Brain Technologies, Inc. Natural query completion for a real-time morphing interface
CN110727785A (zh) 2019-09-11 2020-01-24 北京奇艺世纪科技有限公司 推荐模型的训练、搜索文本的推荐方法、装置及存储介质
CN110750616B (zh) 2019-10-16 2023-02-03 网易(杭州)网络有限公司 检索式聊天方法、装置以及计算机设备
CN111797216B (zh) 2020-06-28 2024-04-05 北京百度网讯科技有限公司 检索项改写方法、装置、设备以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018116728A (ja) * 2010-01-18 2018-07-26 アップル インコーポレイテッド インテリジェント自動アシスタント
WO2019235103A1 (ja) * 2018-06-07 2019-12-12 日本電信電話株式会社 質問生成装置、質問生成方法及びプログラム
CN110969024A (zh) * 2018-09-30 2020-04-07 北京奇虎科技有限公司 一种查询语句的改写方法及装置

Also Published As

Publication number Publication date
US20230123581A1 (en) 2023-04-20
JP7352640B2 (ja) 2023-09-28
KR20210104909A (ko) 2021-08-25
EP3961424A1 (en) 2022-03-02
US12079215B2 (en) 2024-09-03
EP3961424A4 (en) 2022-10-05

Similar Documents

Publication Publication Date Title
CN108334487B (zh) 缺失语意信息补全方法、装置、计算机设备和存储介质
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
EP4060565A1 (en) Method and apparatus for acquiring pre-trained model
US11775254B2 (en) Analyzing graphical user interfaces to facilitate automatic interaction
CN111414482B (zh) 一种事件论元抽取方法、装置以及电子设备
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
WO2018195875A1 (en) Generating question-answer pairs for automated chatting
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN112347769B (zh) 实体识别模型的生成方法、装置、电子设备及存储介质
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
WO2022000934A1 (zh) 检索项改写方法、装置、设备以及存储介质
CN109313650A (zh) 在自动聊天中生成响应
JP2022003537A (ja) 対話意図の認識方法及び装置、電子機器並びに記憶媒体
CN115309877B (zh) 对话生成方法、对话模型训练方法及装置
CN115359383B (zh) 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN110427627A (zh) 基于语义表示模型的任务处理方法和装置
WO2023201975A1 (zh) 一种差异描述语句生成方法、装置、设备及介质
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
EP3869359A1 (en) Method for generating question answering robot and computer device
CN112131368B (zh) 对话生成方法、装置、电子设备及存储介质
CN110459211A (zh) 人机对话方法、客户端、电子设备及存储介质
JP7352640B2 (ja) 検索項目書き換え方法、装置、機器および記憶媒体
CN112507090A (zh) 用于输出信息的方法、装置、设备和存储介质
WO2023173554A1 (zh) 坐席违规话术识别方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210804

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230915

R150 Certificate of patent or registration of utility model

Ref document number: 7352640

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150