JP2021192283A - 情報照会方法、装置及び電子機器 - Google Patents

情報照会方法、装置及び電子機器 Download PDF

Info

Publication number
JP2021192283A
JP2021192283A JP2021143880A JP2021143880A JP2021192283A JP 2021192283 A JP2021192283 A JP 2021192283A JP 2021143880 A JP2021143880 A JP 2021143880A JP 2021143880 A JP2021143880 A JP 2021143880A JP 2021192283 A JP2021192283 A JP 2021192283A
Authority
JP
Japan
Prior art keywords
corpus
core
information
seed
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021143880A
Other languages
English (en)
Inventor
チン,ワンシュン
Wanshun Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021192283A publication Critical patent/JP2021192283A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】大量のビジネスシーンデータの蓄積に依存することなく、汎化能力を向上させ、正確、かつ、効率的に情報を照会することを確保し、情報照会プロセスにおける効率及び信頼性を向上させ、同時に、複数の異なるビジネスシーンでの情報照会をサポートする情報照会方法、装置、プログラム及び記録媒体を提供する。【解決手段】方法は、照会語句を受信し、照会語句を単語分割し、分割された単語の依存関係及び品詞を取得し、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得し、エンコードシーケンスと、抽出対象の品詞及び抽出対象の依存関係を含む汎化テンプレートをマッチングし、照会語句のコアコーパスを取得し、コアコーパスに基づいて、照会語句に対応する照会結果を取得する。【選択図】図1

Description

本出願の実施例は、全体としてデータ処理技術分野に関し、より具体的には、深層学習、自然言語処理及び人工知能技術分野に関する。
近年、AI(Artificial Inteligence、人工知能)技術が勢いよく発展し、これに伴い、AI技術に基づく知能化情報照会研究は、ますます多くの注目を受けている。ここで、構造化知識質問応答は、知能化シーンにおける不可欠な一環となりつつあり、照会query(話し言葉の文)などの話し言葉対話シーンは、知能化情報照会方式の中でよく見られるものである。
しかしながら、言語表現の豊かさに基づいて、同一の意味のqueryは、通常、複数の異なる表現を有する。これにより、既存の情報照会方法に基づいて照会を行うと、照会結果の精度を確保するために、往々にしてかかる時間が長く、コストが高いなどの問題が存在することで、情報照会プロセスにおいて効率が極めて低いという問題が存在し、ユーザの体験が極めて悪い。したがって、どのように情報照会結果の精度を確保し、情報照会プロセスにおける効率及び信頼性を向上させるかは、重要な研究方向の1つとなっている。
本出願は、情報照会方法、装置及び電子機器を提供する。
第1の態様によれば、情報照会方法を提供し、照会語句を受信し、前記照会語句を単語分割し、前記分割された単語の依存関係及び品詞を取得するステップと、前記分割された単語の前記依存関係及び前記品詞に基づいて、前記照会語句のエンコードシーケンスを取得するステップと、前記エンコードシーケンスと汎化テンプレートをマッチングし、前記照会語句のコアコーパスを取得するステップであって、前記汎化テンプレートは、抽出対象の品詞及び抽出対象の依存関係を含むステップと、前記コアコーパスに基づいて、前記照会語句に対応する照会結果を取得するステップと、を含む。
第2の態様によれば、情報照会装置を提供し、照会語句を受信し、前記照会語句を単語分割し、前記分割された単語の依存関係及び品詞を取得するための第1の取得モジュールと、前記分割された単語の前記依存関係及び前記品詞に基づいて、前記照会語句のエンコードシーケンスを取得するための第2の取得モジュールと、前記エンコードシーケンスと汎化テンプレートをマッチングし、前記照会語句のコアコーパスを取得するための第3の取得モジュールであって、前記汎化テンプレートは、抽出対象の品詞及び抽出対象の依存関係を含む第3の取得モジュールと、前記コアコーパスに基づいて、前記照会語句に対応する照会結果を取得するための第4の取得モジュールと、を含む。
第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが本出願の第1の態様に記載の情報照会方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本出願の第1の態様に記載の情報照会方法を実行させることに用いられる。
第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、前記コンピュータに本出願の第1態様に記載の情報照会方法を実行させるために用いられる。
第5の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行される場合、本開示の第1の態様に記載の情報照会方法のステップを実現することを特徴とするコンピュータプログラム製品を提供する。
なお、本部分に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の第1の実施例に係る概略図である。 ユーザの異なる質問方式の概略図である。 照会語句のエンコードシーケンスを取得する概略図である。 照会語句のコアコーパスを取得する概略図である。 照会語句に対応する照会結果を取得する概略図である。 本出願の第2の実施例に係る概略図である。 本出願の第3の実施例に係る概略図である。 本出願の第4の実施例に係る概略図である。 本出願の第5の実施例に係る概略図である。 本出願の第6の実施例に係る概略図である。 スマート音声カスタマーサービス対話プロセスの概略図である。 本出願の実施例の情報照会方法を実現するための情報照会装置のブロック図である。 本出願の実施例の情報照会方法を実現するための情報照会装置のブロック図である。 本出願の実施例の情報照会を実現するための電子機器のブロック図である。
以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下、本出願の技術案に関する技術分野を簡単に説明する。
データ処理(Data Processing)は、データの収集、記憶、検索、加工、変更及び伝送などの処理を含み、大量の、乱雑で分かりづらい可能性のある大量のデータから、ある特定のユーザにとって価値や意味のあるデータを抽出して導き出すことを旨とする。
AI(Artificial Inteligence、人工知能)は、コンピュータに人間のある思考過程及びインテリジェント挙動をシミュレーションさせることを研究する学科であり、ハードウェアレベルの技術もあれば、ソフトウェアレベルの技術もある。人工知能ハードウェア技術は、一般的に、コンピュータビジョン技術、音声認識技術、自然言語処理技術及び学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方面を含む。
DL(Deep Learning、深層学習)は、ML機械学習(Machine Learning、機械学習)分野における1つの新たな研究方向であり、最初の目標である人工知能により近づけるように、機械学習に導入される。深層学習は、サンプルデータの内在的な法則及びディスプレイレイヤを学習することであり、これらの学習プロセスにおいて得られた情報は、文字、画像及び声音などのデータの解釈に大いに役立つ。その最終的な目標は、機械が人間のように解析学習能力を持ち、文字、画像及び声音などのデータを認識できるようにすることである。深層学習は、複雑な機械学習アルゴリズムであり、音声及び画像認識の面で取得された効果は、従来の関連技術を遥かに上回っている。
NLP(Natural Language Processing、自然言語処理)は、コンピュータ科学分野及び人工知能分野における1つの重要な方向である。人間とコンピュータとの間の自然言語による効率的な通信を実現できる様々な理論及び方法を研究する。自然言語処理は、言語学、コンピュータ科学、教学を一体化した科学である。したがって、この分野の研究は、自然言語、すなわち、人間が日常的に使用する言語に関するため、言語学の研究と密接に関連しているが、重要な違いもある。
なお、構造化知識質問応答に対する研究は、最大の難題が意味汎化問題を如何に解決するかである。従来技術において、一般的に、X−SQL、HydraNetなどのモデルに基づいて、深層学習の方式によって言語表現の汎化問題を解決する。
しかしながら、深層学習の方式によって言語表現の汎化問題を解決することは、往々にして大量のデータを表記し、できるだけ1つの完全なデータセットを構築する必要があり、これによりモデルの認識能力を向上させるように、モデルに更に多くの有効なトレーニングサンプルを提供する。そうすれば、従来情報照会プロセスに拡張能力が弱く、汎用性が低く、コストが高く、時間がかかり、結果のコントロール性が悪く、干渉しにくいなどの問題が存在することを招く。
これにより、本出願により提供される情報照会方式は、依存構文解析に基づく汎化マッチング技術によって、照会結果の精度を確保するとともに、コストを低減し、情報照会プロセスにおける効率及び信頼性を向上させることができる。
以下、図面を参照して本出願の実施例の情報照会方法、装置及び電子機器を説明する。
図1は、本出願の第1の実施例に係る概略図である。ここで、なお、本実施例の情報照会方法の実行主体がサーバサイドである。図1に示すように、本実施例により提供される情報照会方法は、以下のステップを含む。
S101において、照会語句を受信し、照会語句を単語分割し、分割された単語の依存関係及び品詞を取得する。
なお、言語表現の豊かさに基づいて、同一の意味のquery(話し言葉の文)は、一般的には、複数の異なる表現を有する。例えば、取得された照会語句がそれぞれ「車両甲のエンジン馬力」及び「車両甲のエンジンパワー」である場合、「エンジン馬力」及び「エンジンパワー」は、「エンジンパワー」の2つの一般的な汎化表現である。
本出願において、情報照会プロセスに存在する汎化問題を解決するために、大量の表記データに依存して照会結果を取得するのではなく、依存構文解析の汎化マッチング技術に基づいて、受信された照会語句にマッチングしている応答を取得し、情報の照会を実現する。ここで、受信された照会語句は、ユーザが提出した問題であってもよい。
なお、本出願において、ユーザは、テキスト情報、音声情報を入力したり、テキスト情報を選択したりするなどの複数の方式で質問することができる。例えば、図2(a)に示すように、ユーザは、ユーザ端末の入力画面においてテキストを入力でき、この場合、ユーザの質問は、テキスト情報1−1であり、例えば、図2(b)に示すように、ユーザは、ユーザ端末の入力画面において音声を入力でき、この場合、ユーザの質問は、音声情報1−2であり、例えば、図2(c)に示すように、ユーザは、ユーザ端末の入力画面において画面によって提供されるテキストを選択でき、この場合、ユーザの質問は、テキスト情報1−3である。
本出願の実施例において、ユーザが質問を提出した後、テキストを直接照会語句としてもよく、音声情報をテキスト情報に変換した後、変換されたテキスト情報を照会語句としてもよい。
例えば、ユーザが音声入力の方式で「車両甲のエンジン馬力」という質問を提出した場合、ユーザは、質問を提出した後、音声情報を「車両甲のエンジン馬力」というテキスト情報に変換し、「車両甲のエンジン馬力」を照会語句としてもよい。
さらに、照会語句を受信した後、照会語句に対して単語分割処理及び品詞表記を行って、分割された単語の依存関係及び品詞を取得することができる。
ここで、単語分割処理とは、統計に基づく単語分割処理であり、統計的なサンプル内容は、いくつかの標準的なコーパスからのものである。例えば、「車両甲のエンジン馬力」に対して単語分割処理を行うと、車両甲、の、エンジン、馬力の4つの分割された単語を得ることができる。
ここで、依存関係は、主述関係(Subject Verb、SBVと略称する)、動賓関係(Verb Object、VOBと略称する)、間賓関係(Indirect Object、IOBと略称する)、定中関係(Attribute、ATTと略称する)、状中関係(Adverbial、ADVと略称する)、などの関係を含むことができる。選択可能に、依存関係は、各2つの分割された単語の間の依存関係であってもよい。例えば、エンジンと馬力との依存関係は、ATTである。
ここで、品詞とは、単語の特徴を品詞分割の根拠とすることであり、動詞(v)、名詞(n)、その他の固有名詞(nz)、助詞(u)などを含むことができる。
なお、本出願において、単語分割処理を行う具体的な方法を限定しておらず、実際の状況に応じて設定することができる。例えば、順方向最大マッチング方法、逆方向最大マッチング方法、最短経路単語分割方法などの方法によりテキスト内容に対して単語分割処理を行うことができる。
なお、本出願において、品詞表記を行う具体的な方法を限定しておらず、実際の状況に応じて設定することができる。例えば、取得された単語分割をマルコフモデル(Markov Model)に入力し、単語分割の品詞を取得することができる。
S102において、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得する。
本出願の実施例において、分割された単語の依存関係及び品詞を取得した後、分割された単語の依存関係及び品詞をEncode(エンコード)規則として、照会語句のエンコードシーケンスを取得することができる。
例えば、図3に示すように、「車両甲のエンジン馬力」という照会語句を受信した後、照会語句に対して単語分割処理及び品詞表記を行い、分割された単語の依存関係がそれぞれ[DE]、[DE]、[ATT]及び[SBV]であり、品詞がそれぞれ[nz]、[u]、[n]及び[n]であることを取得することができる。この場合、分割された単語の依存関係及び品詞をEncode規則として、照会語句のエンコードシーケンスが[DE][nz][DE][u][ATT][n][SBV][n]であることを取得することができる。ここで、[DE]は、「の字関係」を表す。
S103において、エンコードシーケンスと汎化テンプレートをマッチングし、照会語句のコアコーパスを取得し、ここで、汎化テンプレートは、抽出対象の品詞及び抽出対象の依存関係を含む。
本出願の実施例において、照会語句のエンコードシーケンスを取得した後、エンコードシーケンスと汎化テンプレートをマッチングし、マッチングしている汎化テンプレートをDecode(デコード)規則として、照会語句のコアコーパスを取得することができる。つまり、エンコードシーケンスと汎化テンプレートをマッチングした後、トランスコードなどの方式により、照会語句のコアコーパスを取得することができる。ここで、汎化テンプレートに抽出対象の依存関係及び抽出対象の品詞が記憶されている。
例えば、図4に示すように、照会語句のエンコードシーケンスが[DE][nz][DE][u][ATT][n][SBV][n]であることを取得する場合、取得されたエンコードシーケンスと汎化テンプレートをマッチングし、マッチングしている汎化テンプレートAをDecode規則として、照会語句のコアコーパスが[車両甲]、[エンジン馬力]であることを取得することができる。
なお、本出願において、汎化能力を向上させ、情報照会を効率的に行うことができることを確保し、異なるビジネスシーンをサポートするように、経験的に配置された汎化テンプレートを複数設定しておくことができる。
例えば、ビジネスシーン甲に対して、汎化テンプレートBを[DE][nz][DE][u][ATT][n][SBV][n]として予め設定することができ、この場合、「車両甲のエンジン馬力」という照会語句に対して、コアコーパスが[車両甲]、[エンジン馬力]であることを取得することができ、ビジネスシーン乙に対して、汎化テンプレートCを[ATT][n][DE][u][SBV][n]として予め設定することができ、この場合、「腐ったトマト」という照会語句に対して、コアコーパスが[腐った]、[トマト]であることを取得することができる。
S104において、コアコーパスに基づいて、照会語句に対応する照会結果を取得する。
例えば、図5に示すように、照会語句のコアコーパス5−1が[車両甲]、[エンジン馬力]であることを取得する場合、照会語句に対応する照会結果5−2が[車両甲のエンジンパワーがAワットである]であることを取得することができる。
本出願の実施例の情報照会方法によれば、照会語句を受信し、照会語句を単語分割することにより、分割された単語の依存関係及び品詞を取得し、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得し、そしてエンコードシーケンスと汎化テンプレートをマッチングし、照会語句のコアコーパスを取得し、コアコーパスに基づいて、照会語句に対応する照会結果を取得し、情報の照会を実現することができ、大量のビジネスシーンデータの蓄積に依存することなく、汎化能力を向上させることができ、正確かつ効率的に情報を照会することができることを確保し、情報照会プロセスにおける効率及び信頼性を向上させる。同時に、過剰なコストを増加させることなく、複数の異なるビジネスシーンでの情報照会をサポートでき、拡張能力が強く、汎用性が高い。
図6は、本出願の第2の態様に係る概略図である。図6に示すように、前の実施例に基づいて、本実施例により提出される情報照会方法は、以下のステップを含む。
S601において、照会語句を受信し、照会語句を単語分割し、分割された単語の依存関係及び品詞を取得する。
S602において、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得する。
当該ステップS601〜S602は、前の実施例におけるステップS101〜S102と同じであり、ここで詳しく説明しない。
前の実施例のステップS103は、具体的には、以下のステップS603〜S604を含むことができる。
S603において、抽出対象の品詞に基づいて、エンコード情報から抽出対象の品詞と一致するエンコードセグメントを抽出する。
例えば、[DE][nz][DE][u] [ATT][n][SBV][n]、[DE][nz][ATT][n] [ATT][n][SBV][n]、[DE][nz][ATT][u] [ATT][n][SBV][n]という汎化テンプレートを予め設定し、取得された抽出対象の品詞が[nz][u] [n][n]である。
この場合、「車両甲のエンジン馬力」に対して、エンコード情報から抽出対象の品詞と一致するエンコードセグメントがそれぞれ[DE][nz][DE][u] [ATT][n][SBV][n]及び[DE][nz][ATT][u] [ATT][n][SBV][n]であることを抽出する。
S604において、抽出対象の依存関係に基づいて、エンコードセグメント間の汎化境界を決定し、汎化境界に基づいて、コアコーパスを抽出する。
例えば、エンコード情報から抽出対象の品詞と一致するエンコードセグメントがそれぞれ[DE][nz][DE][u] [ATT][n][SBV][n]及び[DE][nz][ATT][u] [ATT][n][SBV][n]であることを抽出し、取得された抽出対象の依存関係が[DE][DE][ATT][SBV]である。
この場合、「車両甲のエンジン馬力」に対して、抽出対象の依存関係に基づいて、エンコードセグメント間の汎化境界を決定し、汎化境界に基づいて、コアコーパスが[DE][nz][DE][u] [ATT][n][SBV][n]にマッチングしている「車両甲」及び「エンジン馬力」であることを抽出する。
S605において、コアコーパスに基づいて、照会語句に対応する照会結果を取得する。
当該ステップS605は、前の実施例におけるステップS104と同じであり、ここで詳しく説明しない。
本発明の実施例の情報照会方法によれば、抽出対象の品詞に基づいて、エンコードセグメントを抽出し、抽出対象の依存関係に基づいて、エンコードセグメント間の汎化境界を決定し、汎化境界に基づいて、コアコーパスを抽出することができ、汎化問題を解決するとともに、情報照会プロセスにおいてかかる時間が短縮され、情報照会プロセスにおける効率及び信頼性をさらに向上させることができる。
図7は、本出願の第3の実施例に係る概略図である。図7に示すように、前の実施例に基づいて、本実施例により提出される情報照会方法は、以下のステップを含む。
S701において、照会語句を受信し、照会語句を単語分割し、分割された単語の依存関係及び品詞を取得する。
S702において、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得する。
当該ステップS701〜S702は、前の実施例におけるステップS101〜S102と同じであり、ここで詳しく説明しない。
S703において、抽出対象の品詞に基づいて、エンコード情報から抽出対象の品詞と一致するエンコードセグメントを抽出する。
S704において、抽出対象の依存関係に基づいて、エンコードセグメント間の汎化境界を決定し、汎化境界に基づいて、コアコーパスを抽出する。
当該ステップS703〜S704は、前の実施例におけるステップS603〜S604と同じであり、ここで詳しく説明しない。
前の実施例におけるステップS104は、具体的には、以下のステップS705〜S706を含むことができる。
S705において、コアコーパスに基づいて、予め構築されたコーパスデータベースにおいて検索し、コアコーパスに対応する目標シードコーパスを取得する。
1つの可能な実現方式として、図8に示すように、前の実施例に基づいて、以下のステップを含む。
S801において、コアコーパスに基づいて、コーパスデータベースにおいて検索し、コアコーパスに対応する少なくとも1つの候補シードコーパスを取得し、コーパスデータベースに複数のシードコーパスが記憶され、コアコーパスは、少なくとも1つのシードコーパスの汎化コーパスである。
本出願の実施例において、転置インデックス及び意味類似度計算に基づいて、コーパスデータベースにおいてコアコーパスに対してコーパス検索を行い、粗並べによって少なくとも1つの候補シードコーパスを取得することができる。
ここで、コーパスデータベースは、構造化データ記憶形式である。選択可能に、予めユーザのテーブルデータに基づいて、テーブルデータに対して内容抽出を行い、抽出された内容を用いてコーパスデータベースを形成することができる。
ここで、コアコーパスが少なくとも1つのシードコーパスの汎化コーパスである。例えば、[エンジン馬力]は、シードコーパスである[エンジンパワー]の汎化コーパスである。
ここで、転置インデックスは、逆インデックス(Inverted Index)とも呼ばれ、実際の応用において属性の値に基づいてレコードを照会する必要があることに由来する。このようなインデックステーブルのそれぞれにも1つの属性値及び当該属性値を有する各レコードのアドレスを含む。レコードによって属性値を決定するのではなく、属性値によってレコードの位置を決定するため、転置インデックスと呼ばれる。
ここで、意味類似度計算は、CNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)などに基づく意味類似度計算方式を用いてもよい。
S802において、少なくとも1つの候補シードコーパスから、目標シードコーパスを決定する。
本出願の実施例において、コアコーパスと各候補シードコーパスとの類似度を取得し、類似度が最も高い候補シードコーパスを選択して、精並べによって目標シードコーパスを取得することができる。
なお、本出願は、コアコーパスと各候補シードコーパスとの類似度を取得する具体的な方式を限定しておらず、実際の状況に応じて選択することができる。例えば、Simnet(シムネット)、BOWに基づく余弦距離、BM25(Best Matching 25)などの方式によって類似度が最も高い候補シードコーパスを最終的な目標シードコーパスとして保持することができる。
S706において、目標シードコーパスに対応するタグデータを、照会語句に対応する照会結果とする。
例えば、目標シードコーパスである[車両甲]及び[エンジンパワー]に対応するタグデータがそれぞれ[車両甲]及び[エンジンパワーがAワットである]である場合、照会語句に対応する照会結果は、[車両甲のエンジンパワーがAワットである]である。
本出願の実施例の情報照会方法によれば、コアコーパスに基づいて、コーパスデータベースにおいて検索し、コアコーパスに対応する少なくとも1つの候補シードコーパスを粗並べにより取得し、コアコーパスと各候補シードコーパスとの類似度を取得し、類似度が最も高い候補シードコーパスを選択し、精並べにより目標シードコーパスを取得することができ、粗並べ及び精並べにより真のタグデータをリコールし、より正確な照会結果を取得することができるようにし、情報照会プロセスにおける効率及び信頼性を向上させる。
なお、本出願の実施例において、汎化テンプレートは、分野経験に基づいて予め構築することができる。さらに、汎化テンプレートの適応性を向上させるために、異なるビジネスシーンに対して、コアコーパスの異なる表現方式に基づいて、対応する汎化テンプレートを予め配置することができる。ここで、大部分の汎化テンプレートは、汎用汎化テンプレートであり、複数のビジネスシーンに適用でき、残りの汎化テンプレートは、部分的にカスタマイズされた汎化テンプレートを構築するように、特別な分野のニーズに応じて調整することができる。
さらに、情報照会プロセスにおいて、リコール不足及びリコール拡張という現象が発生する可能性があり、本出願により提出される情報照会方法は、リコール不足及びリコール拡張という現象に対して、汎化テンプレートを更新することができる。
1つの可能な実現方式として、図9に示すように、上記実施例に基づいて、以下のステップを含む。
S901において、候補シードコーパスの数を取得する。
S902において、候補シードコーパスの数が第1の予め設定された数より大きく、又は第2の予め設定された数より小さいことに応答し、汎化テンプレートを更新する。
ここで、第1の予め設定された数及び第2の予め設定された数は、実際の状況に応じて設定することができる。
例えば、候補シードコーパスの数がkであり、第1の予め設定された数がkであり、第2の予め設定された数がkである場合、k>kの場合、現在リコール拡張という現象があることを示し、汎化テンプレートを更新でき、k<kの場合、現在リコール不足という現象があることを示し、汎化テンプレートを更新できる。
本出願の実施例の情報照会方法によれば、候補シードコーパスの数を取得し、候補シードコーパスの数が第1の予め設定された数より大きく、又は第2の予め設定された数より小さいことに応答し、汎化テンプレートを更新することができ、リコール不足やリコール拡張という現象が発生した場合、いつでも汎化テンプレートを更新し、直ちにエラーに介入することができ、取得された照会結果がより正確であることを確保し、情報照会プロセスにおける効率及び信頼性をさらに向上させ、情報照会プロセスにおける制御可能性及び安定性を更に向上させることができる。
図10は、本出願の第6の実施例に係る概略図である。図10に示すように、上記実施例に基づいて、本実施例により提出される情報照会方法は、以下のステップを含む。
S1001において、照会語句を受信し、照会語句を単語分割し、分割された単語の依存関係及び品詞を取得する。
S1002において、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得する。
S1003において、抽出対象の品詞に基づいて、エンコード情報から抽出対象の品詞と一致するエンコードセグメントを抽出する。
S1004において、抽出対象の依存関係に基づいて、エンコードセグメント間の汎化境界を決定し、汎化境界に基づいて、コアコーパスを抽出する。
S1005において、コアコーパスに基づいて、コーパスデータベースにおいて検索し、コアコーパスに対応する少なくとも1つの候補シードコーパスを取得し、コーパスデータベースに複数のシードコーパスが記憶され、コアコーパスは、少なくとも1つのシードコーパスの汎化コーパスである。
S1006において、少なくとも1つの候補シードコーパスから、目標シードコーパスを決定する。
S1007において、目標シードコーパスに対応するタグデータを、照会語句に対応する照会結果とする。
なお、ステップS1001〜S1007についての紹介は、上記実施例における関連記載を参照することができ、ここで詳しく説明しない。
なお、本出願により提出される情報照会方法は、複数のシーンに適用することができる。
スマート音声カスタマーサービスなどのマンマシンインタラクション応用シーンに対して、NLP技術に基づいて、ユーザによって入力された音声をテキスト情報に変換し、照会語句として、照会語句を単語分割し、分割された単語の依存関係及び品詞を取得することができ、そして、DL及びAI技術の基礎で、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得し、エンコードシーケンスと汎化テンプレートをマッチングし、照会語句のコアコーパスを取得し、コアコーパスに基づいて、照会語句に対応する照会結果を取得し、情報の照会を実現することができる。
例えば、図11に示すように、ユーザは、「車両甲のエンジン馬力」という音声を入力することにより、質問しようとする。選択可能に、音声を「車両甲のエンジン馬力」というテキスト情報に変換して照会語句として、照会語句を単語分割処理することにより、分割された単語の依存関係及び品詞を取得することができ、そして、DL及びAI技術をもとに、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスが[DE][nz][DE][u][ATT][n] [SBV][n]であることを取得することができる。さらに、エンコードシーケンスと汎化テンプレートをマッチングし、照会語句のコアコーパスが[車両甲]、[エンジン馬力]であることを取得し、コアコーパスに基づいて、照会語句に対応する照会結果が[車両甲のエンジンパワーがAワットである]であることを取得し、情報の照会を実現することができる。
本出願の実施例の情報照会方法によれば、照会語句を受信し、照会語句を単語分割することにより、分割された単語の依存関係及び品詞を取得し、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得し、そしてエンコードシーケンスと汎化テンプレートをマッチングし、照会語句のコアコーパスを取得し、コアコーパスに基づいて、照会語句に対応する照会結果を取得し、情報の照会を実現することができ、大量のビジネスシーンデータの蓄積に依存することなく、汎化能力を向上させることができ、正確かつ効率的に情報を照会することができることを確保し、情報照会プロセスにおける効率及び信頼性を向上させる。同時に、過剰なコストを増加させることなく、複数の異なるビジネスシーンでの情報照会をサポートでき、拡張能力が強く、汎用性が高い。
上記いくつかの実施例により提供される情報照会方法に対応し、本出願の1つの実施例は、情報照会装置をさらに提供し、本出願の実施例により提供される情報照会装置は、上記いくつかの実施例により提供される情報照会方法に対応するため、情報照会方法の実施方式も本実施例により提供される情報照会装置に適用し、本実施例において詳しく説明しない。
図12は、本出願の1つの実施例に係る情報照会装置の概略構成図である。
図12に示すように、当該情報照会装置1200は、第1の取得モジュール1210、第2の取得モジュール1220、第3の取得モジュール1230及び第4の取得モジュール1240を含む。
第1の取得モジュール1210は、照会語句を受信し、前記照会語句を単語分割し、前記分割された単語の依存関係及び品詞を取得することに用いられ、第2の取得モジュール1220は、前記分割された単語の前記依存関係及び前記品詞に基づいて、前記照会語句のエンコードシーケンスを取得することに用いられ、第3の取得モジュール1230は、前記エンコードシーケンスと汎化テンプレートをマッチングし、前記照会語句のコアコーパスを取得することに用いられ、前記汎化テンプレートは、抽出対象の品詞及び抽出対象の依存関係を含み、第4の取得モジュール1240は、前記コアコーパスに基づいて、前記照会語句に対応する照会結果を取得することに用いられる。
図13は、本出願の他の実施例に係る情報照会装置の概略構成図である。
図13に示すように、当該情報照会装置1300は、第1の取得モジュール1310、第2の取得モジュール1320、第3の取得モジュール1330及び第4の取得モジュール1340を含む。
第3の取得モジュール1330は、前記抽出対象の品詞に基づいて、前記エンコード情報から前記抽出対象の品詞と一致するエンコードセグメントを抽出するための第1の抽出サブモジュール1331と、前記抽出対象の依存関係に基づいて、前記エンコードセグメント間の汎化境界を決定し、前記汎化境界に基づいて、前記コアコーパスを抽出するための第2の抽出サブモジュール1332と、を含む。
第4の取得モジュール1340は、前記コアコーパスに基づいて、予め構築されたコーパスデータベースにおいて検索し、前記コアコーパスに対応する目標シードコーパスを取得するための第1の取得サブモジュール1341と、前記目標シードコーパスに対応するタグデータを、前記照会語句に対応する照会結果とするための決定サブモジュール1342と、を含む。
第1の取得サブモジュール1341は、前記コアコーパスに基づいて、前記コーパスデータベースにおいて検索し、前記コアコーパスに対応する少なくとも1つの候補シードコーパスを取得するための取得ユニット13411であって、前記コーパスデータベースに複数のシードコーパスが記憶され、前記コアコーパスが少なくとも1つのシードコーパスの汎化コーパスである取得ユニット13411と、前記少なくとも1つの候補シードコーパスから前記目標シードコーパスを決定するための決定ユニット13412と、を含む。
取得ユニット13411は、転置インデックス及び意味類似度計算に基づいて、前記コーパスデータベースにおいて前記コアコーパスに対してコーパス検索を行い、前記少なくとも1つの候補シードコーパスを取得するための取得サブユニット134111を含む。
決定ユニット13412は、前記コアコーパスと各候補シードコーパスとの類似度を取得し、類似度が最も高い候補シードコーパスを前記目標シードコーパスとして選択するための選択サブユニット134121を含む。
当該情報照会装置1300は、前記候補シードコーパスの数を取得するための第5の取得モジュール1350と、前記候補シードコーパスの数が第1の予め設定された数より大きく、又は前記第2の予め設定された数より小さいことに応答し、前記汎化テンプレートを更新するための更新モジュール1360と、をさらに含む。
なお、第2の取得モジュール1320と第2の取得モジュール1220は、同じ機能及び構造を有する。
本出願の実施例の情報照会装置によれば、照会語句を受信し、照会語句を単語分割することにより、分割された単語の依存関係及び品詞を取得し、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得し、そしてエンコードシーケンスと汎化テンプレートをマッチングし、照会語句のコアコーパスを取得し、コアコーパスに基づいて、照会語句に対応する照会結果を取得し、情報の照会を実現することができ、大量のビジネスシーンデータの蓄積に依存することなく、汎化能力を向上させることができ、正確かつ効率的に情報を照会することができることを確保し、情報照会プロセスにおける効率及び信頼性を向上させる。同時に、過剰なコストを増加させることなく、複数の異なるビジネスシーンでの情報照会をサポートでき、拡張能力が強く、汎用性が高い。
本出願の実施例において、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図14は、本出願の実施例に係る情報照会の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限するものではない。
図14に示すように、当該電子機器は、1つ又は複数のプロセッサ1410と、メモリ1420と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内に実行される命令を処理することができ、当該命令は、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施方式では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図14では、1つのプロセッサ1410を例とする。
メモリ1420は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが本出願により提供される情報照会方法を実行することができるようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される情報照会方法を実行させるためのコンピュータ命令が記憶されている。
メモリ1420は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における情報照会方法に対応するプログラム命令/モジュール(例えば、図12に示す第1の取得モジュール1210、第2の取得モジュール1220、第3の取得モジュール1230及び第4の取得モジュール1240)のように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ1310は、メモリ1420に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アクティベーション及びデータ処理を実行し、すなわち上記の方法の実施例における情報照会方法を実現する。
メモリ1420は、プログラムストレージエリアとデータストレージエリアとを含むことができ、プログラムストレージエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアは、ポジショニング電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ1420は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例で、メモリ1420は、プロセッサ1410に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介してポジショニング電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
情報照会の電子機器は、入力装置1430と出力装置1440とをさらに含むことができる。プロセッサ1410、メモリ1420、入力装置1430、及び出力装置1440は、バス又は他の方式を介して接続することができ、図14では、バスを介して接続することを例とする。
入力装置1430は、入力された数字又は文字情報を受信し、ポジショニング電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置1440は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令をふくみ、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施する。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドユニットを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアユニットを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドユニットを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式と対話する)、又はこのようなバックエンドユニットと、ミドルウェアユニットと、フロントエンドユニットの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット及びブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れ、通常に通信ネットワークを介して対話する。対応するコンピュータ上で実行され、且つ互いにクライアント−サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)における、管理難度が大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つである。サーバは、分散システムのサーバやブロックチェーンを組み合わせたサーバであってもよい。
本出願は、コンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品における命令がプロセッサによって実行される場合、上述したような情報照会方法を実現する。
本出願の実施例の情報照会方法によれば、照会語句を受信し、照会語句を単語分割することにより、分割された単語の依存関係及び品詞を取得し、分割された単語の依存関係及び品詞に基づいて、照会語句のエンコードシーケンスを取得し、そしてエンコードシーケンスと汎化テンプレートをマッチングし、照会語句のコアコーパスを取得し、コアコーパスに基づいて、照会語句に対応する照会結果を取得し、情報の照会を実現することができ、大量のビジネスシーンデータの蓄積に依存することなく、汎化能力を向上させることができ、正確かつ効率的に情報を照会することができることを確保し、情報照会プロセスにおける効率及び信頼性を向上させる。同時に、過剰なコストを増加させることなく、複数の異なるビジネスシーンでの情報照会をサポートでき、拡張能力が強く、汎用性が高い。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (18)

  1. 情報照会方法であって、
    照会語句を受信し、前記照会語句を単語分割し、前記分割された単語の依存関係及び品詞を取得するステップと、
    前記分割された単語の前記依存関係及び前記品詞に基づいて、前記照会語句のエンコードシーケンスを取得するステップと、
    前記エンコードシーケンスと汎化テンプレートをマッチングし、前記照会語句のコアコーパスを取得するステップであって、前記汎化テンプレートは、抽出対象の品詞及び抽出対象の依存関係を含むステップと、
    前記コアコーパスに基づいて、前記照会語句に対応する照会結果を取得するステップと、を含む、
    ことを特徴とする情報照会方法。
  2. 前記エンコードシーケンスと汎化テンプレートをマッチングし、前記照会語句のコアコーパスを取得するステップは、
    前記抽出対象の品詞に基づいて、前記エンコード情報から前記抽出対象の品詞と一致するエンコードセグメントを抽出するステップと、
    前記抽出対象の依存関係に基づいて、前記エンコードセグメント間の汎化境界を決定し、前記汎化境界に基づいて、前記コアコーパスを抽出するステップと、を含む、
    ことを特徴とする請求項1に記載の情報照会方法。
  3. 前記コアコーパスに基づいて、前記照会語句に対応する照会結果を取得するステップは、
    前記コアコーパスに基づいて、予め構築されたコーパスデータベースにおいて検索し、前記コアコーパスに対応する目標シードコーパスを取得するステップと、
    前記目標シードコーパスに対応するタグデータを、前記照会語句に対応する照会結果とするステップと、を含む、
    ことを特徴とする請求項1又は2に記載の情報照会方法。
  4. 前記コアコーパスに基づいて、予め構築されたコーパスデータベースにおいて検索し、前記コアコーパスに対応する目標シードコーパスを取得するステップは、
    前記コアコーパスに基づいて、前記コーパスデータベースにおいて検索し、前記コアコーパスに対応する少なくとも1つの候補シードコーパスを取得するステップであって、前記コーパスデータベースに複数のシードコーパスが記憶され、前記コアコーパスは、少なくとも1つのシードコーパスの汎化コーパスであるステップと、
    前記少なくとも1つの候補シードコーパスから前記目標シードコーパスを決定するステップと、を含む、
    ことを特徴とする請求項3に記載の情報照会方法。
  5. 前記コアコーパスに基づいて、前記コーパスデータベースにおいて検索し、前記コアコーパスに対応する少なくとも1つの候補シードコーパスを取得するステップは、
    転置インデックス及び意味類似度計算に基づいて、前記コーパスデータベースにおいて前記コアコーパスに対してコーパス検索を行い、前記少なくとも1つの候補シードコーパスを取得するステップを含む、
    ことを特徴とする請求項4に記載の情報照会方法。
  6. 前記少なくとも1つの候補シードコーパスから前記目標シードコーパスを決定するステップは、
    前記コアコーパスと各候補シードコーパスとの類似度を取得し、類似度が最も高い候補シードコーパスを前記目標シードコーパスとして選択するステップを含む、
    ことを特徴とする請求項4に記載の情報照会方法。
  7. 前記候補シードコーパスの数を取得するステップと、
    前記候補シードコーパスの数が第1の予め設定された数より大きく、又は前記第2の予め設定された数より小さいことに応答し、前記汎化テンプレートを更新するステップと、をさらに含む、
    ことを特徴とする請求項4〜6のいずれかに記載の情報照会方法。
  8. 情報照会装置であって、
    照会語句を受信し、前記照会語句を単語分割し、前記分割された単語の依存関係及び品詞を取得するための第1の取得モジュールと、
    前記分割された単語の前記依存関係及び前記品詞に基づいて、前記照会語句のエンコードシーケンスを取得するための第2の取得モジュールと、
    前記エンコードシーケンスと汎化テンプレートをマッチングし、前記照会語句のコアコーパスを取得するための第3の取得モジュールであって、前記汎化テンプレートは、抽出対象の品詞及び抽出対象の依存関係を含む第3の取得モジュールと、
    前記コアコーパスに基づいて、前記照会語句に対応する照会結果を取得するための第4の取得モジュールと、を含む、
    ことを特徴とする情報照会装置。
  9. 前記第3の取得モジュールは、
    前記抽出対象の品詞に基づいて、前記エンコード情報から前記抽出対象の品詞と一致するエンコードセグメントを抽出するための第1の抽出サブモジュールと、
    前記抽出対象の依存関係に基づいて、前記エンコードセグメント間の汎化境界を決定し、前記汎化境界に基づいて、前記コアコーパスを抽出するための第2の抽出サブモジュールと、を含む、
    ことを特徴とする請求項8に記載の情報照会装置。
  10. 前記第4の取得モジュールは、
    前記コアコーパスに基づいて、予め構築されたコーパスデータベースにおいて検索し、前記コアコーパスに対応する目標シードコーパスを取得するための第1の取得サブモジュールと、
    前記目標シードコーパスに対応するタグデータを、前記照会語句に対応する照会結果とするための決定サブモジュールと、を含む、
    ことを特徴とする請求項8又は9に記載の情報照会装置。
  11. 前記第1の取得サブモジュールは、
    前記コアコーパスに基づいて、前記コーパスデータベースにおいて検索し、前記コアコーパスに対応する少なくとも1つの候補シードコーパスを取得するための取得ユニットであって、前記コーパスデータベースに複数のシードコーパスが記憶され、前記コアコーパスが少なくとも1つのシードコーパスの汎化コーパスである取得ユニットと、
    前記少なくとも1つの候補シードコーパスから前記目標シードコーパスを決定するための決定ユニットと、を含む、
    ことを特徴とする請求項10に記載の情報照会装置。
  12. 前記取得ユニットは、
    転置インデックス及び意味類似度計算に基づいて、前記コーパスデータベースにおいて前記コアコーパスに対してコーパス検索を行い、前記少なくとも1つの候補シードコーパスを取得するための取得サブユニットを含む、
    ことを特徴とする請求項11に記載の情報照会装置。
  13. 前記決定ユニットは、
    前記コアコーパスと各候補シードコーパスとの類似度を取得し、類似度が最も高い候補シードコーパスを前記目標シードコーパスとして選択するための選択サブユニットを含む、
    ことを特徴とする請求項11に記載の情報照会装置。
  14. 前記候補シードコーパスの数を取得するための第5の取得モジュールと、
    前記候補シードコーパスの数が第1の予め設定された数より大きく、又は前記第2の予め設定された数より小さいことに応答し、前記汎化テンプレートを更新するための更新モジュールと、をさらに含む、
    ことを特徴とする請求項11〜13のいずれかに記載の情報照会装置。
  15. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記1つのプロセッサが請求項1〜7のいずれかに記載の情報照会方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  16. コンピュータ命令が記憶されている一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1〜7のいずれかに記載の情報照会方法を実行させることに用いられる、
    ことを特徴とする一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムがプロセッサによって実行される場合、請求項1〜7のいずれかに記載の情報照会方法を実現する、
    コンピュータプログラム製品。
  18. コンピュータ上で動作しているときに、請求項1〜7のいずれかに記載の情報照会方法を前記コンピュータに実行させる、
    コンピュータプログラム。
JP2021143880A 2020-12-23 2021-09-03 情報照会方法、装置及び電子機器 Pending JP2021192283A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011538686.1A CN112528001B (zh) 2020-12-23 2020-12-23 一种信息查询方法、装置及电子设备
CN202011538686.1 2020-12-23

Publications (1)

Publication Number Publication Date
JP2021192283A true JP2021192283A (ja) 2021-12-16

Family

ID=74975900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021143880A Pending JP2021192283A (ja) 2020-12-23 2021-09-03 情報照会方法、装置及び電子機器

Country Status (3)

Country Link
US (1) US11714840B2 (ja)
JP (1) JP2021192283A (ja)
CN (1) CN112528001B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032677A (zh) * 2021-04-01 2021-06-25 李旻达 一种基于人工智能的查询信息处理方法和装置
CN114661751B (zh) * 2022-03-22 2023-01-31 医渡云(北京)技术有限公司 基于sql知识库的数据生产方法、装置、系统、设备及介质
CN116340365B (zh) * 2023-05-17 2023-09-08 北京创新乐知网络技术有限公司 一种缓存数据的匹配方法、匹配装置及终端设备
CN116628004B (zh) * 2023-05-19 2023-12-08 北京百度网讯科技有限公司 信息查询方法、装置、电子设备及存储介质
CN117112773A (zh) * 2023-09-08 2023-11-24 中航机载系统共性技术有限公司 一种基于nlp的适航非结构化数据的搜索方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100512541B1 (ko) * 2000-02-29 2005-09-06 김영택 기계번역 장치 및 시스템, 방법
JP5710317B2 (ja) * 2011-03-03 2015-04-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、自然言語解析方法、プログラムおよび記録媒体
CN108763402B (zh) * 2018-05-22 2021-08-27 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN111563209B (zh) * 2019-01-29 2023-06-30 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN109918680B (zh) * 2019-03-28 2023-04-07 腾讯科技(上海)有限公司 实体识别方法、装置及计算机设备
CN110991185A (zh) * 2019-11-05 2020-04-10 北京声智科技有限公司 一种文章中实体的属性抽取方法及装置
CN110991180A (zh) * 2019-11-28 2020-04-10 同济人工智能研究院(苏州)有限公司 一种基于关键词和Word2Vec的命令识别方法
CN111027324B (zh) * 2019-12-05 2023-11-21 电子科技大学广东电子信息工程研究院 一种基于句法模式和机器学习的开放式关系的抽取方法
CN111159409B (zh) * 2019-12-31 2023-06-02 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
CN111666372B (zh) * 2020-04-29 2023-08-18 百度在线网络技术(北京)有限公司 解析查询词query的方法、装置、电子设备和可读存储介质
CN111708800A (zh) * 2020-05-27 2020-09-25 北京百度网讯科技有限公司 查询方法、装置及电子设备

Also Published As

Publication number Publication date
US11714840B2 (en) 2023-08-01
CN112528001A (zh) 2021-03-19
CN112528001B (zh) 2023-07-25
US20210342376A1 (en) 2021-11-04

Similar Documents

Publication Publication Date Title
KR102577514B1 (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
JP2021192283A (ja) 情報照会方法、装置及び電子機器
JP7194150B2 (ja) ドキュメントのベクトル化表現方法、ドキュメントのベクトル化表現装置及びコンピュータ機器
US9448995B2 (en) Method and device for performing natural language searches
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US11907671B2 (en) Role labeling method, electronic device and storage medium
JP2021197133A (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
JP7106802B2 (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
CN113553414B (zh) 智能对话方法、装置、电子设备和存储介质
KR20210056961A (ko) 의미 처리 방법, 장치, 전자 기기 및 매체
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
JP7093825B2 (ja) マンマシン対話方法、装置、及び機器
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
CN112328890B (zh) 搜索地理位置点的方法、装置、设备及存储介质
JP7139028B2 (ja) 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体
CN109933216B (zh) 一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质
CN111708800A (zh) 查询方法、装置及电子设备
JP7223112B2 (ja) ナビゲーション放送の管理方法、装置および装置
CN113821593A (zh) 一种语料处理的方法、相关装置及设备
CN111666372A (zh) 解析查询词query的方法、装置、电子设备和可读存储介质
CN114444462B (zh) 模型训练方法及人机交互方法、装置
JP7241122B2 (ja) スマート応答方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
WO2020149959A1 (en) Conversion of natural language query
CN113343692A (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210903

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20230214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230606