JP2022120100A - 指令を認識するための方法、装置、電子機器、記憶媒体、コンピュータプログラムおよび音声インタラクティブスクリーン - Google Patents

指令を認識するための方法、装置、電子機器、記憶媒体、コンピュータプログラムおよび音声インタラクティブスクリーン Download PDF

Info

Publication number
JP2022120100A
JP2022120100A JP2022094122A JP2022094122A JP2022120100A JP 2022120100 A JP2022120100 A JP 2022120100A JP 2022094122 A JP2022094122 A JP 2022094122A JP 2022094122 A JP2022094122 A JP 2022094122A JP 2022120100 A JP2022120100 A JP 2022120100A
Authority
JP
Japan
Prior art keywords
command
directives
matching
target
commands
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022094122A
Other languages
English (en)
Inventor
ウェンジュン チャン
Wenjun Zhang
ゼチェン ズオ
Zecheng Zhuo
ジャン ゴン
Jian Gong
キャン ファン
Qiang Huang
グオアン ヨウ
Guo'an You
シュー パン
Xu Pan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022120100A publication Critical patent/JP2022120100A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】指令を認識するための方法、装置、電子機器、記憶媒体、コンピュータプログラムおよび音声インタラクティブスクリーンを提供する。【解決手段】方法は、認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度を取得することと、当該テキストベクトルおよび少なくとも1つの単語重要度に基づいて、指令と指令のテキストベクトルとの対応関係を含む予め設定された指令ライブラリの中から、目標数の仮マッチング指令を選択し、当該指令ライブラリ内の指令は、指令タイプと指令の対象となるキーワードとを含むことと、当該目標数の仮マッチング指令における、指令タイプおよび指令の対象となるキーワードに基づいて、当該認識すべき指令にマッチングする、指令タイプおよび指令の対象となるキーワードを生成することと、を含む。【選択図】図1

Description

本開示は、自然言語処理、クラウドコンピューティング等の人工知能技術の分野に関し、特に、指令を認識するための方法、装置および音声インタラクティブスクリーンに関する。
インターネット技術の発展に伴い、人とコンピュータのインタラクションは益々頻繁になっている。ヒューマンコンピュータインタラクションシーンでは、ユーザの意図を判定するために、含まれた指令を正確に認識することは、特に重要である。
従来技術では、予め設定された規則に従って認識すべき指令からキーワードを抽出して、キーワードと、予め構築された指令タイプのキーワードおよび指令内容のキーワードとが同一であるか否かを比較することにより、指令の認識結果を確定することが多い。
指令を認識するための方法、装置、電子機器、記憶媒体、コンピュータプログラムおよび音声インタラクティブスクリーンを提供する。
第1の態様によれば、認識すべき指令に対応する、テキストベクトルおよび少なくとも1つの単語重要度を取得することと、テキストベクトルおよび少なくとも1つの単語重要度に基づいて、予め設定された指令ライブラリの中から目標数の仮マッチング指令を選択することであって、指令ライブラリには指令と指令のテキストベクトルとの対応関係が含まれ、指令ライブラリ内の指令には、指令タイプと、指令の対象となるキーワードとが含まれる、ことと、目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令にマッチングする指令タイプおよび、認識すべき指令にマッチングする指令の対象となるキーワードを生成することと、を含む、指令を認識するための方法を提供する。
第2のの態様によれば、認識すべき指令に対応する、テキストベクトルおよび少なくとも1つの単語重要度を取得するように構成される取得ユニットと、テキストベクトルおよび少なくとも1つの単語重要度に基づいて、予め設定された指令ライブラリの中から目標数の仮マッチング指令を選択するように構成される選択ユニットであって、指令ライブラリには指令と指令のテキストベクトルとの対応関係が含まれ、指令ライブラリ内の指令には、指令タイプと、指令の対象となるキーワードとが含まれる、選択ユニットと、目標数の仮マッチング指令における、指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令にマッチングする指令タイプおよび認識すべき指令にマッチングする指令の対象となるキーワードを生成するように構成される生成ユニットと、を備える指令を認識するための装置を提供する。
第3の態様によれば、少なくとも1つのプロセッサと、上記少なくとも1つのプロセッサと通信接続されたメモリとを備える電子機器であって、メモリには、上記少なくとも1つのプロセッサによって実行可能な指令が格納され、上記指令が少なくとも1つのプロセッサによって実行されると、上記少なくとも1つのプロセッサに第1の態様のいずれかの実施形態に記載の方法が実行される、電子機器を提供する。
第4の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記
憶媒体であって、当該コンピュータ指令は第1の態様のいずれかの実施形態に記載の方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
第5の態様によれば、プロセッサによって実行されると、第1の態様のいずれかの実施形態に記載の方法が実現されるコンピュータプログラムを提供する。
第6の態様によれば、受信した音声を認識して認識すべき指令を生成するように構成される音声認識装置と、第3の態様に記載の電子機器と、認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令にマッチングする内容を表示するように構成される表示装置と、を備える音声インタラクティブスクリーンを提供する。
本開示の技術によれば、セマンティックとバッグ・オブ・ワーズの2つの次元において、認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度と、予め設定された指令ライブラリ内の指令とをマッチングすることにより、認識すべき指令の指令タイプおよび指令の対象となるキーワードの解析結果を得る。これにより、予め設定された指令ライブラリの情報構築量を削減することができ、セマンティックマッチングにより、より優れたフォールトトレランスと汎化性が実現され、指令認識の効果が向上される。
なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解される。
図面は本開示をよりよく理解するために用いられ、本開示に対する限定ではない。
本開示の第1の実施形態の概略図である。 本開示の第2の実施形態の概略図である。 本開示の実施形態に係る指令を認識するための方法の一応用シーンの概略図である。 本開示の実施形態に係る指令を認識するための装置の概略図である。 本開示の実施形態に係る指令を認識するための方法を実現するための電子機器のブロック図である。
以下は図面を参照しながら本開示の例示的な実施形態を説明し、ここでは理解を助けるために、本開示の実施形態の様々な詳細が記載されるが、これらは単なる例示的なものに過ぎない。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることは自明である。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
図1は、本開示に係る第1の実施形態の概略図100を示している。当該指令を認識するための方法は、次のステップを含む。
S101では、認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度を取得する。
本実施形態では、指令を認識するための実行主体は、認識すべき指令に対応するテキス
トベクトルと少なくとも1つの単語重要度とを様々な方法で取得することができる。例示として、上記実行主体は、ローカルまたは通信可能に接続された電子機器から、有線または無線接続方式で、認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度を取得してもよい。ここで、上記単語重要度は、上記認識すべき指令における単語の上記認識すべき指令全体における重要度を表すために用いることができる。例示として、上記単語重要度は、単語の出現頻度または単語の出現頻度-逆文書頻度指数(term frequence-inverse document frequency,
TF-IDF)であってもよい。
本実施形態では、上述した認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度は、様々な方法で生成されてもよい。例示として、認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度を生成するための実行主体は、まず認識すべき指令を取得してもよい。なお、上記認識すべき指令は、ユーザが入力したテキストであってもよいし、ユーザが入力した音声を音声認識して得られたテキストであってもよく、ここでは限定をしない。そして、上記実行主体は、様々なテキストベクトル化方法(例えば、SentenceBERTモデルを用いること)により、取得した認識対象テキストを対応するテキストベクトルに変換してもよい。ここで、上記テキストベクトルは、通常、認識対象テキストと1対1に対応することができ、例えば、1つの認識対象テキストを128次元の浮動小数点数のベクトルに変換する。また、上記実行主体は、各種の単語分割ツールを用いて上記認識対象テキストを単語分割するようにしてもよい。オプションとして、上記実行主体は、例えば、完全な人名、地名を保留するように、細かく分割された単語を併合してもよい。
なお、上記認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度を生成するための実行主体は、上述した指令を認識するための実行主体と同一であっても異なっていてもよく、ここでは限定をしない。
S102では、テキストベクトルおよび少なくとも1つの単語重要度に基づいて、予め設定された指令ライブラリから目標数の仮マッチング指令を選択する。
本実施形態では、上記予め設定された指令ライブラリには、指令と指令のテキストベクトルとの対応関係が含まれてもよい。上記予め設定された指令ライブラリ内の指令には、指令タイプと、指令の対象となるキーワードとが含まれてもよい。ここで、上記指令タイプは、通常、実行すべき動作の種類、例えば、「ページを開く」、「ページを閉じる」、「モニタ画面(カメラ)を切り替える」、「ズームイン」等を示すために用いられる。上述した指令の対象となるキーワードは、通常、「都市管理」、「交通トラフィック」、「XX交差点」等、実行すべき動作の対象となる特定のオブジェクトを示すために用いられる。
本実施形態では、例示として、上述した予め設定された指令ライブラリ内の指令の1つは、「(ページを)開く、都市管理、テキストベクトル」であってもよい。ここで、上記テキストベクトルは、「都市管理ページを開く」をテキストベクトル化することで得られたベクトルであってもよい。
本実施形態では、ステップS101で取得されたテキストベクトルおよび少なくとも1つの単語重要度のそれぞれのマッチング結果に基づいて、上記実行主体は、様々な方法で予め設定された指令ライブラリから目標数の仮マッチング指令を選択することができる。例示として、上記実行主体は、まず、ステップS101で取得されたテキストベクトルと、上記予め設定された指令ライブラリ内の指令に対応するテキストベクトルとを用いて類似度の計算を行い、最も類似度の高いM個のテキストベクトルに対応する指令を候補マッ
チング指令として選択してもよい。そして、上記実行主体は、上記候補マッチング指令のうちの指令に含まれる単語の単語重要度(例えば、「開く」の単語重要度、「都市管理」の単語重要度、「ページ」の単語重要度)を確定することができる。次に、上記実行主体は、上記選択された候補マッチング指令の中から、上記認識すべき指令に対応する単語重要度(例えば、「見せてください」の単語重要度、「都市管理」の単語重要度、「ページ」の単語重要度)における一致する単語(例えば、「都市管理」)の単語重要度以上の単語重要度を有する単語を含む目標数の指令を上記仮マッチング指令として選択することができる。
なお、上記目標数は、例えば5個など、実際の応用シーンによって予め設定された数であってもよい。上記目標数は、例えば、類似度および単語重要度がいずれも所定閾値を超えた指令の数など、規則に従って定められた数であってもよい。
S103では、目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードを生成する。
本実施形態では、上記実行主体は、ステップS102で選択された目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、様々な方法で認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードを生成することができる。
本実施形態では、例示として、上記実行主体は、上記目標数の仮マッチング指令における出現回数が最も多い指令タイプおよび指令の対象となるキーワードそれぞれを、認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードとして確定することができる。
本開示の上記実施形態に係る方法は、セマンティックとバッグ・オブ・ワーズの2つの次元において、認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度と、予め設定された指令ライブラリ内の指令とをマッチングすることにより、認識すべき指令の指令タイプおよび指令の対象となるキーワードの解析結果を得る。これにより、予め設定された指令ライブラリの情報構築量を削減し、セマンティックマッチングすることによって、より優れたフォールトトレランスと汎化性を実現でき、さらに応用効率および認識率などの観点から指令認識の効果を高めることができる。
本実施形態のいくつかのオプション的な実施形態において、上記実行主体は、テキストベクトルおよび少なくとも1つの単語重要度に基づいて、以下のステップによって予め設定された指令ライブラリから目標数の仮マッチング指令を選択することができる。
S1021では、予め設定された指令ライブラリの中から、テキストベクトルにマッチングする第1の数の指令をプリマッチング指令として選択する。
これらの実施形態において、上記実行主体は、様々な方法により上記予め設定された指令ライブラリから、テキストベクトルにマッチングする第1の数の指令をプリマッチング指令として選択することができる。
例示として、上記実行主体は、まず、ステップS101で取得したテキストベクトルと、上記予め設定された指令ライブラリ内の指令に対応するテキストベクトルとを用いて類似度の計算を行い、最も類似度の高い第1の数(例えば、10個)のテキストベクトルに対応する指令を候補マッチング指令として選択することができる。
S1022では、予め設定された指令ライブラリから、少なくとも1つの単語重要度にマッチングする第2の数の指令を、プリマッチング指令として選択する。
これらの実施形態において、上記実行主体は、様々な方法により予め設定された指令ライブラリから、少なくとも1つの単語重要度にマッチングする第2の数(例えば10個)の指令をプリマッチング指令として選択することができる。上記プリマッチング指令には、上記少なくとも1つの単語重要度が示す単語と同じ単語が少なくとも1つ含まれる。
例示として、上記認識すべき指令に対応する少なくとも1つの単語重要度が示す単語は、例えば、「A」および「B」であってもよい。そして、上記プリマッチング指令には、「A」および「B」の少なくとも一方が含まれる。
S1023では、選択されたプリマッチング指令のセットから目標数の指令を仮マッチング指令として選択する。
これらの実施形態において、上記実行主体は、様々な方法により上記ステップS1022で選択されたプリマッチング指令のセットの中から、目標数の指令を仮マッチング指令として選択することができる。例示として、上記ステップS1021で選択された第1の数のプリマッチング指令と、上記ステップS1022で選択された第2の数のプリマッチング指令とにおいて同一の指令が存在すると判断された場合、上記実行主体は、上記同一の指令を上記仮マッチング指令として確定してもよい。
上記のオプション的な実施形態に基づいて、本方案は、予め設定された指令ライブラリから仮マッチング指令を選択する方法を豊富にすることができ、それによって、セマンティックとバッグ・オブ・ワーズの2つの次元のさらなる結合によりマッチングの精度を高めることができる。
オプションとして、本実施形態のいくつかのオプション的な実施形態において、上記実行主体は、以下のステップによって予め設定された指令ライブラリから、少なくとも1つの単語重要度にマッチングする第2の数の指令をプリマッチング指令として選択してもよい。
第1ステップでは、予め設定された指令ライブラリから少なくとも1つの目標単語を含む指令を選択し、目標指令セットを生成する。
これらの実施形態において、上記目標単語は、通常、上記認識すべき指令を単語分割することによって得られた単語を含む。上記目標単語は、上述した認識すべき指令に対応する少なくとも1つの単語重要度が示す単語と一致してもよい。
オプションとして、上記予め設定された指令ライブラリに転置インデックス(Inverted Index)が含まれることにより、上記実行主体は、目標指令を転置インデックスにより高速に選択して、目標指令セットを生成することができる。
第2ステップでは、目標指令セット内の指令について、当該指令における、少なくとも1つの目標単語にマッチングする単語の単語重要度を累加して、当該指令に対応する指令重要度を生成する。
これらの実施形態において、例示として、上記少なくとも1つの目標単語は、「A」および「B」を含んでもよい。目標指令セット内の指令について、当該指令に目標単語「A
」のみが含まれる場合、当該指令に対応する指令重要度は、目標単語「A」に対応する単語重要度である。当該指令に目標単語「A」と目標単語「B」とが含まれる場合、当該指令に対応する指令重要度は、目標単語「A」に対応する単語重要度と目標単語「B」に対応する単語重要度との和である。
第3ステップでは、対応する指令重要度が最も高い上位の第2の数の指令を、第2の数のプリマッチング指令として選択する。
これらの実施形態において、上記実行主体は、上記第2ステップで生成された指令重要度に基づいて、対応する指令重要度が最も高い上位の第2の数の指令を、第2の数のプリマッチング指令として選択することができる。
上記のオプション的な実施形態によれば、本方案は、単語重要度に基づいて第2の数のプリマッチング指令を選択する方法を豊富にし、それによって、バッグ・オブ・ワーズの次元からマッチングする精度を可能な限り向上させた。
オプションとして、本実施形態のいくつかのオプション的な実施形態において、上記実行主体は、以下のステップによって選択されたプリマッチング指令のセットから、目標数の指令を仮マッチング指令として選択してもよい。
第1ステップでは、選択されたプリマッチング指令のセットにおける指令を重複排除して、第3の数のプリマッチング指令を生成する。
これらの実施形態において、上記実行主体は、様々な方法によってステップS1022で選択されたプリマッチング指令のセットにおける指令を重複排除して第3の数のプリマッチング指令を生成することができる。ここで、上記第3の数は、通常、上記第1の数と上記第2の数との和を超えない。
第2ステップでは、テキスト類似度に基づいて、第3の数のプリマッチング指令の中から目標数の指令を仮マッチング指令として選択する。
これらの実施形態において、上記実行主体は、様々な方法によってテキスト類似度に基づいて、上記第1ステップで生成された第3の数のプリマッチング指令の中から、目標数の指令を仮マッチング指令として選択することができる。ここで、上記テキスト類似度は、上記認識すべき指令と上記第3の数のプリマッチング指令のうちの指令との類似度を表すためのものであってもよい。例示として、上記テキスト類似度は、認識すべき指令に対応するテキストベクトルと、上記プリマッチング指令における指令に対応するテキストベクトルとの類似度であってもよい。上記実行主体は、上記第3の数のプリマッチング指令の中から、テキスト類似度の高から低への順に従って目標数の指令を仮マッチング指令として選択してもよい。また、他の例として、上記実行主体はさらに、上記第3の数のプリマッチング指令の中から、予め設定された類似度閾値よりも大きいテキスト類似度を有する目標数の指令を、仮マッチング指令としてランダムに選択してもよい。
上記のオプション的な実施形態によれば、本方案は、選択されたプリマッチング指令のセットから仮マッチング指令を選択する方式を豊富にし、セマンティックマッチング度を用いて高精度なマッチングを行うことで精度を高いレベルに維持することが確保される。
本実施形態のいくつかのオプション的な実施形態において、上記実行主体は、目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードを、以下の
ステップによって生成することができる。
第1ステップでは、目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードについて、当該指令タイプおよび当該指令の対象となるキーワードに対応する指令のテキスト類似度をそれぞれ累加し、指令タイプおよび指令の対象となるキーワードのそれぞれに対応する累加値を生成する。
これらの実施形態において、例示として、上記仮マッチング指令は、指令1「都市管理、を開く」と指令2「都市交通、を開く」とを含んでもよい。そして、上記実行主体は、指令タイプ「開く」に対応する累加値が、指令1に対応するテキスト類似度と指令2に対応するテキスト類似度との和であると確定することができる。同様に、上記実行主体は、指令の対象となるキーワード「都市管理」に対応する累加値が、指令1に対するテキスト類似度であると確定することができる。上記実行主体は、指令の対象となるキーワード「都市交通」に対応する累加値が、指令2に対応するテキスト類似度であると確定することができる。
第2ステップでは、累加値が最も大きい指令タイプおよび累加値が最も大きい指令の対象となるキーワードのそれぞれを、認識すべき指令にマッチングする、指令タイプおよび指令の対象となるキーワードとして確定する。
これらの実施形態において、上記実行主体は、上記第1ステップで生成された累加値のうちの累加値が最も大きい指令タイプおよび累加値が最も大きい指令の対象となるキーワードのそれぞれを、認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードとして確定することができる。
以上のオプション的な実施形態によれば、本方案は、目標数の仮マッチング指令の中から、認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードを確定する方法が豊富になり、指令認識の精度が向上される。
次に、本開示に係る第2の実施形態の概略図200である図2を参照する。当該指令を認識するための方法は、次のステップを含む。
S201では、認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度を取得する。
S202では、テキストベクトルおよび少なくとも1つの単語重要度に基づいて、予め設定された指令ライブラリから目標数の仮マッチング指令を選択する。
本実施形態では、上記予め設定された指令ライブラリは、以下のステップによって生成される。
S2021では、予め設定された指令テンプレートを取得する。
本実施形態では、上記実行主体は、有線または無線接続方式でローカルまたは通信接続された電子機器から、予め設定された指令テンプレートを取得することができる。ここで、上記指令テンプレートには、指令タイプのスロットと、指令の対象となるキーワードのスロットとが含まれていてもよい。例示として、上記指令テンプレートは、「{open}{page}ページ」であってもよい。
S2022では、予め取得された指令タイプのデータセットおよび指令の対象となるキ
ーワードのデータセットに基づいて、スロット埋込みを行い、事前設定指令セットを生成する。
本実施形態では、上記実行主体は、指令タイプのデータセットと指令の対象となるキーワードのデータセットとを予め取得してもよい。なお、上記の指令タイプのデータセットおよび指令の対象となるキーワードのデータセットには、それぞれ様々な具体的な指令タイプおよび指令の対象となるキーワードが含まれてもよい。例示として、上記指令タイプのデータセットには、「開く」、「閉じる」、「見せてください」などが含まれてもよい。上記の指令の対象となるキーワードのデータセットには、「都市管理」、「文化観光」、「交通トラフィック」などが含まれてもよい。
本実施形態では、上記実行主体は、上記予め取得された指令タイプのデータセットおよび指令の対象となるキーワードのデータセットにおける各データを用いて、上記ステップS2021における対応するスロットを埋込み、各種の指令を生成し、上記事前設定指令セットを形成することができる。
例示として、上記事前設定指令セット内の指令は、「都市管理ページを開く」、「交通トラフィックページを閉じる」、「文化観光ページを見せてください」などであってもよい。
S2023では、生成された事前設定指令セットにおける指令のテキストベクトル化により、指令とテキストベクトルとの対応関係を生成する。
本実施形態において、上記実行主体は、様々な方法で上記ステップS2022で生成された事前設定指令セット内の指令をテキストベクトル化して、指令とテキストベクトルとの対応関係を生成することができる。なお、上述したテキストベクトル化の方式は、上述した実施形態におけるステップS101の対応する記述と一致しており、ここでは限定をしない。
これにより、上記実行主体は、上記事前設定指令セットと、上記の、指令とテキストベクトルとの対応関係との組み合わせを、上記予め設定された指令ライブラリとしてもよい。
本実施形態のいくつかのオプション的な実施形態において、上記指令ライブラリ内の指令は指令内容を含んでもよい。これにより、上記実行主体は、指令内容と、指令タイプと、指令の対象となるキーワードとをトリプレット化することができる。例示として、上記指令は、「都市管理ページを開く、ページを開く、都市管理」であってもよい。
上記オプション的な実施形態によれば、上記予め設定された指令ライブラリはさらに以下のステップによって生成されてもよい。
S2024では、事前設定指令セット内の指令を単語分割して単語セットを生成する。
これらの実施形態において、上記単語分割の方式は、上記の実施形態におけるステップS101の対応する記述と一致してもよく、ここでは限定をしない。
S2025では、単語セットをインデックスとし、指令ライブラリ内の指令内容をデータベースの記録とし、予め設定された指令ライブラリに対するテキスト転置インデックスを生成する。
これらの実施形態において、上記実行主体は、上記ステップS2024で生成された単語セット内の単語をインデックスとし、上記予め設定された指令ライブラリにおける、上記インデックスが含まれた指令内容をデータベースの記録として、上記予め設定された指令ライブラリに対するテキスト転置インデックスを生成するようにしてもよい。
上記のオプション的な実施形態によれば、本方案は、指令認識の速度を上げるための基礎を提供するために、上記予め設定された指令ライブラリのためのテキスト転置インデックスを生成することができる。
S203では、目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードを生成する。
上記S201、S202、S203はそれぞれ、上記の実施形態におけるS101、S102、S103、およびそれらのオプション的な実施態様と一致してもよく、S101、S102、S103、およびそれらのオプション的な実施態様の記述は、S201、S202、S203にも適用でき、ここではその説明を省略する。
図2から分かるように、本実施形態における指令を認識するための方法のフロー200は、予め取得されたデータセットに基づいて予め設定された指令テンプレートに対してスロット埋込みを行い、上記予め設定された指令ライブラリを生成するステップを具現化している。このように、本実施形態で記述した方案は、大量のキーワードのマッピング関係を構築した指令ライブラリではなく、指令タイプおよび指令の対象となるキーワードに基づいた標準的な指令ライブラリを構築することにより、収集する必要な類義語などのデータ量が大幅に削減され、テンプレートを介して指令を自動的に生成することにより、労力を省くことができる。
次に、本開示の実施形態に係る指令を認識するための方法の応用シーンの概略図である図3を参照する。図3の応用シーンにおいて、中央管理室のスマートディスプレイの大型スクリーン302は、まず、「都市管理ページを見せてください」に対応するテキストベクトルと、「見せてください」、「都市管理」、「ページ」にそれぞれ対応するTF-IDF値を単語重要度として取得することができる。あるいは、「都市管理ページを見せてください」に対応する上記のテキストベクトルと、「見せてください」、「都市管理」、「ページ」にそれぞれ対応するTF-IDF値は、スマートディスプレイの大型スクリーン302によってユーザ301が発話した「都市管理ページを見せてください」をテキストベクトル化して単語分割した後に得られたTF-IDFに基づいて算出することができる。そして、スマートディスプレイの大型スクリーン302は、上記テキストベクトルおよび単語重要度に基づいて、予め設定された指令ライブラリ303から、目標数の指令を仮マッチング指令として選択することができる。次に、スマートディスプレイの大型スクリーン302は、目標数の仮マッチング指令における、指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワード304を生成することができる。
現在、従来技術の1つは、予め設定された規則に従って認識すべき指令からキーワードを抽出し、キーワードと、予め構築された指令タイプのキーワードおよび指令内容のキーワードとが同一であるか否かを比較することで指令認識結果を確定し、情報抽出モデルを予めトレーニングするステップを追加する必要があり、類義語が収集されていない場合には正確に認識することができず、汎化能力の低下につながる。本開示の上述した実施形態に係る方法は、セマンティックおよびバッグ・オブ・ワーズの2つの次元において、認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度と、予め設定
された指令ライブラリ内の指令とをマッチングすることにより、認識すべき指令の指令タイプおよび指令の対象となるキーワードの解析結果を得る。これにより、予め設定された指令ライブラリでの情報構築量を削減することができ、セマンティックマッチングにより、より優れたフォールトトレランスと汎化性を実現でき、指令認識の効果を高めることができる。
さらに図4を参照し、上記の各図に示された方法の実施形態として、本開示は、指令を認識するための装置の一実施形態を提供し、当該装置の実施形態は、図1または図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
図4に示すように、本実施形態に係る指令を認識するための装置400は、取得ユニット401と、選択ユニット402と、生成ユニット403とを備える。取得ユニット401は、認識すべき指令に対応するテキストベクトルと少なくとも1つの単語重要度を取得するように構成される。選択ユニット402は、テキストベクトルおよび少なくとも1つの単語重要度に基づいて、予め設定された指令ライブラリの中から目標数の仮マッチング指令を選択するように構成され、指令ライブラリには指令と指令のテキストベクトルとの対応関係が含まれ、指令ライブラリ内の指令には指令タイプと、指令の対象となるキーワードとが含まれる。生成ユニット403は、目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令にマッチングする指令タイプおよび、認識すべき指令にマッチングする指令の対象となるキーワードを生成するように構成される。
本実施形態において、指令を認識するための装置400の取得ユニット401、選択ユニット402および生成ユニット403の具体的な処理並びにそれらの技術効果は、それぞれ図1の対応する実施形態におけるS101、S102、およびS103の関連する説明を参照することができ、ここではその説明を省略する。
本実施形態のいくつかのオプション的な実施形態では、上記選択ユニット402は、予め設定された指令ライブラリから、テキストベクトルにマッチングする第1の数の指令をプリマッチング指令として選択するように構成される第1の選択モジュール(図示せず)と、予め設定された指令ライブラリから、少なくとも1つの単語重要度にマッチングする第2の数の指令をプリマッチング指令として選択するように構成される第2の選択モジュール(図示せず)と、選択されたプリマッチング指令のセットから目標数の指令を仮マッチング指令として選択するように構成される第3の選択モジュール(図示せず)とを備えてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記第2の選択モジュールは、予め設定された指令ライブラリから少なくとも1つの目標単語を含む指令を選択して目標指令セットを生成し、目標単語は、認識すべき指令を単語分割することによって得られた単語を含んでもよく、目標指令セット内の指令に対して、当該指令における、少なくとも1つの目標単語にマッチングする単語の単語重要度を累加して、当該指令に対応する指令重要度を生成し、対応する指令重要度が最も高い上位の第2の数の指令を、第2の数のプリマッチング指令として選択するようにさらに構成されてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記第3の選択モジュールはさらに、選択されたプリマッチング指令のセット内の指令を重複排除して、第1の数と第2の数との和以下であってもよい第3の数のプリマッチング指令を生成し、テキスト類似度に基づいて、第3の数のプリマッチング指令の中から、目標数の指令を仮マッチング指令として選択するように構成されてもよい。ここで、テキスト類似度は、認識すべき指令と
第3の数のプリマッチング指令のうちの指令との類似度を表すために用いられてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記生成ユニット403はさらに、目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに対して、当該指令タイプおよび当該指令の対象となるキーワードに対応する指令についてのテキスト類似度をそれぞれ累加して、各指令タイプおよび指令の対象となるキーワードのそれぞれに対応する累加値を生成し、累加値が最も大きい指令タイプを認識すべき指令にマッチングする指令タイプとし、累加値が最も大きい指令の対象となるキーワードを、認識すべき指令にマッチングする指令の対象となるキーワードとする、ように構成されてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記予め設定された指令ライブラリは、指令タイプのスロットと、指令の対象となるキーワードのスロットとを含む予め設定された指令テンプレートを取得することと、予め取得された指令タイプのデータセットと、指令の対象となるキーワードのデータセットとに基づいて、スロット埋込みを行い、事前設定指令セットを生成することと、生成された事前設定指令セット内の指令のテキストベクトル化により、指令とテキストベクトルとの対応関係を生成することと、によって生成される。
本実施形態のいくつかのオプション的な実施形態では、上記指令ライブラリ内の指令は指令内容をさらに含んでもよい。上記予め設定された指令ライブラリは、さらに、事前設定指令セット内の指令を単語分割して、単語セットを生成することと、単語セットをインデックスとし、指令ライブラリ内の指令内容をデータベースの記録とし、予め設定された指令ライブラリに対するテキスト転置インデックスを生成することと、によって生成されるようにしてもよい。
本開示の上記実施形態に係る装置において、選択ユニット402は、セマンティックおよびバッグ・オブ・ワーズの2つの次元において、取得ユニット401により取得された、認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度と、予め設定された指令ライブラリ内の指令とをマッチングすることにより仮マッチング指令セットを取得する。生成ユニット403は、仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令の指令タイプおよび指令の対象となるキーワードの解析結果を求める。これにより、予め設定された指令ライブラリの情報構築量を削減することができ、セマンティックマッチングにより、より優れたフォールトトレランスと汎化性を実現でき、指令認識の効果を高めることができる。
本開示の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗に反しない。
本開示の実施形態によれば、本開示はさらに電子機器、読み取り可能な記憶媒体およびコンピュータプログラムを提供する。
図5は、本開示の実施形態を実施するために使用できる例示的な電子機器500の例示的なブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関
係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本開示の実施形態を限定することを意図するものではない。
本開示に係る音声インタラクティブスクリーンは、受信した音声を認識して認識すべき指令を生成する音声認識装置と、図5に示すような上記電子機器と、認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードに基づいて、認識すべき指令にマッチングする内容を提示する表示装置と、を備えてもよい。ここで、上記実行主体は、指令タイプおよび指令の対象となるキーワードと、指令内容との対応関係を予め取得しておいてもよい。例示として、上記実行主体は、上記指令タイプおよび指令の対象となるキーワードがそれぞれ「ページを開く」および「都市管理」である場合には、都市管理ページを表示するようにしてもよい。
図5に示すように、機器500は、読み出し専用メモリ(ROM)502に格納されているコンピュータプログラムまたは記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行可能な計算ユニット501を備える。RAM503には、機器500の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット501、ROM502およびRAM503は、バス504を介して互いに接続されている。入/出力(I/O)インターフェース505もバス504に接続されている。
機器500において、キーボード、マウスなどの入力ユニット506と、様々なタイプのディスプレイ、スピーカなどの出力ユニット507と、磁気ディスク、光ディスクなどの記憶ユニット508と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット509とを含む複数のコンポーネントは、I/Oインターフェース505に接続されている。通信ユニット509は、機器500がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
計算ユニット501は、処理および計算能力を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット501のいくつかの例としては、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット501は、上述した、指令を認識するための方法のような各方法および処理を実行する。例えば、いくつかの実施形態では、指令を認識するための方法は、記憶ユニット508などのような機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM502および/または通信ユニット509を介して機器500にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM503にロードされ、計算ユニット501によって実行されると、上述した指令を認識するための方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット501は、他の任意の適切な方式によって(例えば、ファームウェアを介して)指令を認識するための方法を実行するように構成されていてもよい。
ここで記述したシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実
装され得る。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置またはデバイスで使用されることに供し、または指令実行システム、装置またはデバイスと組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD?ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる
適切な組み合わせが含まれ得る。
ユーザとのやりとりを行うために、ここで記述したシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが当該キーボードおよび当ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
ここで記述したシステムおよび技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで記述した
システムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行っていてもよいことを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限をしない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (18)

  1. 認識すべき指令に対応するテキストベクトルおよび少なくとも1つの単語重要度を取得することと、
    前記テキストベクトルおよび少なくとも1つの単語重要度に基づいて、予め設定された指令ライブラリの中から目標数の仮マッチング指令を選択することであって、前記指令ライブラリには指令と指令のテキストベクトルとの対応関係が含まれ、前記指令ライブラリ内の指令には、指令タイプと、指令の対象となるキーワードとが含まれる、ことと、
    前記目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、前記認識すべき指令にマッチングする指令タイプおよび、前記認識すべき指令にマッチングする指令の対象となるキーワードを生成することと、
    を含む、指令を認識するための方法。
  2. 前記テキストベクトルおよび少なくとも1つの単語重要度に基づいて、予め設定された指令ライブラリの中から目標数の仮マッチング指令を選択することは、
    前記予め設定された指令ライブラリの中から、前記テキストベクトルにマッチングする第1の数の指令をプリマッチング指令として選択することと、
    前記予め設定された指令ライブラリの中から、前記少なくとも1つの単語重要度にマッチングする第2の数の指令をプリマッチング指令として選択することと、
    選択されたプリマッチング指令のセットから前記目標数の指令を前記仮マッチング指令として選択することと、
    を含む請求項1に記載の方法。
  3. 前記予め設定された指令ライブラリの中から、前記少なくとも1つの単語重要度にマッチングする第2の数の指令をプリマッチング指令として選択することは、
    前記予め設定された指令ライブラリの中から、少なくとも1つの目標単語を含む指令を選択して目標指令セットを生成することであって、前記目標単語には、前記認識すべき指令を単語分割することによって得られた単語が含まれる、ことと、
    前記目標指令セット内の指令に対して、当該指令における前記少なくとも1つの目標単語にマッチングする単語の単語重要度を累加して、当該指令に対応する指令重要度を生成することと、
    対応する指令重要度が最も高い上位の第2の数の指令を、前記第2の数のプリマッチング指令として選択することと、
    を含む請求項2に記載の方法。
  4. 選択されたプリマッチング指令のセットから前記目標数の指令を前記仮マッチング指令として選択することは、
    選択されたプリマッチング指令のセット内の指令を重複排除して、前記第1の数と前記第2の数との和を超えない第3の数のプリマッチング指令を生成することと、
    前記認識すべき指令と前記第3の数のプリマッチング指令のうちの指令との類似度を表すためのテキスト類似度に基づいて、前記第3の数のプリマッチング指令の中から、前記目標数の指令を前記仮マッチング指令として選択することと、
    を含む請求項2に記載の方法。
  5. 前記目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、前記認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードを生成することは、
    前記目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに対して、当該指令タイプのテキスト類似度および当該指令の対象となるキーワードに対応する指令のテキスト類似度をそれぞれ累加して、各指令タイプに対応する累加値および
    指令の対象となるキーワードに対応する累加値をそれぞれ生成することと、
    累加値が最も大きい指令タイプを前記認識すべき指令にマッチングする指令タイプとし、累加値が最も大きい指令の対象となるキーワードを、前記認識すべき指令にマッチングする指令の対象となるキーワードとすることと、
    を含む請求項4に記載の方法。
  6. 前記予め設定された指令ライブラリは、
    指令タイプのスロットと、指令の対象となるキーワードのスロットとを含む予め設定された指令テンプレートを取得することと、
    予め取得された指令タイプのデータセットおよび指令の対象となるキーワードのデータセットに基づいて、スロット埋込みを行い、事前設定指令セットを生成することと、
    生成された事前設定指令セット内の指令のテキストベクトル化により、指令とテキストベクトルとの対応関係を生成することと、
    によって生成される請求項1に記載の方法。
  7. 前記指令ライブラリ内の指令には指令内容がさらに含まれ、
    前記予め設定された指令ライブラリは、さらに、
    前記事前設定指令セット内の指令を単語分割して、単語セットを生成することと、
    前記単語セットをインデックスとし、前記指令ライブラリ内の指令内容をデータベースの記録とし、前記予め設定された指令ライブラリに対するテキスト転置インデックスを生成することと、
    によって生成される請求項6に記載の方法。
  8. 認識すべき指令に対応する、テキストベクトルおよび少なくとも1つの単語重要度を取得するように構成される取得ユニットと、
    前記テキストベクトルおよび少なくとも1つの単語重要度に基づいて、予め設定された指令ライブラリの中から目標数の仮マッチング指令を選択するように構成される選択ユニットであって、前記指令ライブラリには指令と指令のテキストベクトルとの対応関係が含まれ、前記指令ライブラリ内の指令には、指令タイプと、指令の対象となるキーワードとが含まれる、選択ユニットと、
    前記目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに基づいて、前記認識すべき指令にマッチングする指令タイプおよび、前記認識すべき指令にマッチングする指令の対象となるキーワードを生成するように構成される生成ユニットと、
    を備える指令を認識するための装置。
  9. 前記選択ユニットは、
    前記予め設定された指令ライブラリの中から、前記テキストベクトルにマッチングする第1の数の指令をプリマッチング指令として選択するように構成される第1の選択モジュールと、
    前記予め設定された指令ライブラリの中から、前記少なくとも1つの単語重要度にマッチングする第2の数の指令をプリマッチング指令として選択するように構成される第2の選択モジュールと、
    選択されたプリマッチング指令のセットから前記目標数の指令を前記仮マッチング指令として選択するように構成される第3の選択モジュールと、
    を備える請求項8に記載の装置。
  10. 前記第2の選択モジュールは、さらに
    前記予め設定された指令ライブラリの中から、少なくとも1つの目標単語を含む指令を選択して目標指令セットを生成することであって、前記目標単語には、前記認識すべき指
    令を単語分割することによって得られた単語が含まれる、ことと、
    前記目標指令セット内の指令に対して、当該指令における前記少なくとも1つの目標単語にマッチングする単語の単語重要度を累加して、当該指令に対応する指令重要度を生成することと、
    対応する指令重要度が最も高い上位の第2の数の指令を、前記第2の数のプリマッチング指令として選択することと、
    を行うように構成される請求項9に記載の装置。
  11. 前記第3の選択モジュールは、さらに
    選択されたプリマッチング指令のセット内の指令を重複排除して、前記第1の数と前記第2の数との和を超えない第3の数のプリマッチング指令を生成することと、
    前記認識すべき指令と前記第3の数のプリマッチング指令のうちの指令との類似度を表すためのテキスト類似度に基づいて、前記第3の数のプリマッチング指令の中から、前記目標数の指令を前記仮マッチング指令として選択することと、
    を行うように構成される請求項9に記載の装置。
  12. 前記生成ユニットは、さらに
    前記目標数の仮マッチング指令における指令タイプおよび指令の対象となるキーワードに対して、当該指令タイプのテキスト類似度および当該指令の対象となるキーワードに対応する指令のテキスト類似度をそれぞれ累加して、各指令タイプに対応する累加値および指令の対象となるキーワードに対応する累加値をそれぞれ生成することと、
    累加値が最も大きい指令タイプを前記認識すべき指令にマッチングする指令タイプとし、累加値が最も大きい指令の対象となるキーワードを、前記認識すべき指令にマッチングする指令の対象となるキーワードとすることと、
    を行うように構成される請求項11に記載の装置。
  13. 前記予め設定された指令ライブラリは、
    指令タイプのスロットと、指令の対象となるキーワードのスロットとを含む予め設定された指令テンプレートを取得することと、
    予め取得された指令タイプのデータセットおよび指令の対象となるキーワードのデータセットに基づいて、スロット埋込みを行い、事前設定指令セットを生成することと、
    生成された事前設定指令セット内の指令のテキストベクトル化により、指令とテキストベクトルとの対応関係を生成することと、
    によって生成される請求項8に記載の装置。
  14. 前記指令ライブラリ内の指令には指令内容がさらに含まれ、
    前記予め設定された指令ライブラリは、さらに、
    前記事前設定指令セット内の指令を単語分割して、単語セットを生成することと、
    前記単語セットをインデックスとし、前記指令ライブラリ内の指令内容をデータベースの記録とし、前記予め設定された指令ライブラリに対するテキスト転置インデックスを生成することと、
    によって生成される請求項13に記載の装置。
  15. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~7のいずれか1項に記載の方法を実行させる、電子機器。
  16. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項1~7のいずれか1項に記載の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
  17. プロセッサによって実行されると、請求項1~7のいずれか1項に記載の方法が実現されるコンピュータプログラム。
  18. 受信した音声を認識して認識すべき指令を生成するように構成される音声認識装置と、
    請求項15に記載の電子機器と、
    前記認識すべき指令にマッチングする指令タイプおよび指令の対象となるキーワードに基づいて、前記認識すべき指令にマッチングする内容を表示するように構成される表示装置と、
    を備える音声インタラクティブスクリーン。

JP2022094122A 2021-09-16 2022-06-10 指令を認識するための方法、装置、電子機器、記憶媒体、コンピュータプログラムおよび音声インタラクティブスクリーン Pending JP2022120100A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111086573.7A CN113779201B (zh) 2021-09-16 2021-09-16 用于识别指令的方法、装置以及语音交互屏幕
CN202111086573.7 2021-09-16

Publications (1)

Publication Number Publication Date
JP2022120100A true JP2022120100A (ja) 2022-08-17

Family

ID=78851378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022094122A Pending JP2022120100A (ja) 2021-09-16 2022-06-10 指令を認識するための方法、装置、電子機器、記憶媒体、コンピュータプログラムおよび音声インタラクティブスクリーン

Country Status (5)

Country Link
US (1) US20220318503A1 (ja)
EP (1) EP4109323A3 (ja)
JP (1) JP2022120100A (ja)
KR (1) KR20220077898A (ja)
CN (1) CN113779201B (ja)

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4631251B2 (ja) * 2003-05-06 2011-02-16 日本電気株式会社 メディア検索装置およびメディア検索プログラム
US9659082B2 (en) * 2012-08-27 2017-05-23 Microsoft Technology Licensing, Llc Semantic query language
CN108885614B (zh) * 2017-02-06 2020-12-15 华为技术有限公司 一种文本和语音信息的处理方法以及终端
CN108986801B (zh) * 2017-06-02 2020-06-05 腾讯科技(深圳)有限公司 一种人机交互方法、装置及人机交互终端
WO2019154282A1 (zh) * 2018-02-08 2019-08-15 广东美的厨房电器制造有限公司 家电设备及其语音识别方法、控制方法、控制装置
CN109033162A (zh) * 2018-06-19 2018-12-18 深圳市元征科技股份有限公司 一种数据处理方法、服务器及计算机可读介质
CN109841221A (zh) * 2018-12-14 2019-06-04 深圳壹账通智能科技有限公司 基于语音识别的参数调节方法、装置及健身设备
CN109767758B (zh) * 2019-01-11 2021-06-08 中山大学 车载语音分析方法、系统、存储介质以及设备
CN110265010A (zh) * 2019-06-05 2019-09-20 四川驹马科技有限公司 基于百度语音的货车多人语音识别方法及系统
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110827822A (zh) * 2019-12-06 2020-02-21 广州易来特自动驾驶科技有限公司 一种智能语音交互方法、装置、出行终端、设备及介质
US11481442B2 (en) * 2019-12-12 2022-10-25 International Business Machines Corporation Leveraging intent resolvers to determine multiple intents
CN111126233B (zh) * 2019-12-18 2023-07-21 中国平安财产保险股份有限公司 基于距离值的通话通道构建方法、装置和计算机设备
US11580112B2 (en) * 2020-03-31 2023-02-14 Pricewaterhousecoopers Llp Systems and methods for automatically determining utterances, entities, and intents based on natural language inputs
US11243991B2 (en) * 2020-06-05 2022-02-08 International Business Machines Corporation Contextual help recommendations for conversational interfaces based on interaction patterns
CN112133295B (zh) * 2020-11-09 2024-02-13 北京小米松果电子有限公司 语音识别方法、装置及存储介质
CN112800190B (zh) * 2020-11-11 2022-06-10 重庆邮电大学 基于Bert模型的意图识别与槽值填充联合预测方法
CN112700768B (zh) * 2020-12-16 2024-04-26 科大讯飞股份有限公司 语音识别方法以及电子设备、存储装置
CN112686102B (zh) * 2020-12-17 2024-05-28 广西轨交智维科技有限公司 一种适应于地铁站点的快速排障方法
CN112767924A (zh) * 2021-02-26 2021-05-07 北京百度网讯科技有限公司 语音识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113779201B (zh) 2023-06-30
US20220318503A1 (en) 2022-10-06
EP4109323A3 (en) 2023-03-01
CN113779201A (zh) 2021-12-10
EP4109323A2 (en) 2022-12-28
KR20220077898A (ko) 2022-06-09

Similar Documents

Publication Publication Date Title
JP7283009B2 (ja) 対話理解モデルの訓練方法、装置、デバイス及び記憶媒体
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
JP2023012493A (ja) 言語モデルの事前トレーニング方法、装置、デバイスおよび記憶媒体
US20220108684A1 (en) Method of recognizing speech offline, electronic device, and storage medium
US20230005283A1 (en) Information extraction method and apparatus, electronic device and readable storage medium
WO2024045475A1 (zh) 语音识别方法、装置、设备和介质
KR20220010045A (ko) 영역 프레이즈 마이닝 방법, 장치 및 전자 기기
US20230004798A1 (en) Intent recognition model training and intent recognition method and apparatus
JP7369228B2 (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
CN113850080A (zh) 一种押韵词推荐方法、装置、设备及存储介质
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
JP2022031854A (ja) 返信内容の生成方法、装置、機器及び記憶媒体
CN113505595A (zh) 文本短语抽取方法、装置、计算机设备及存储介质
KR102621436B1 (ko) 음성 합성 방법, 장치, 전자 기기 및 저장 매체
JP2023062150A (ja) 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
JP2022120100A (ja) 指令を認識するための方法、装置、電子機器、記憶媒体、コンピュータプログラムおよび音声インタラクティブスクリーン
CN113204613B (zh) 地址生成方法、装置、设备和存储介质
CN112560466A (zh) 链接实体关联方法、装置、电子设备和存储介质
US11835356B2 (en) Intelligent transportation road network acquisition method and apparatus, electronic device and storage medium
US20230085458A1 (en) Dialog data generating
CN114443959A (zh) 兴趣点的推荐方法、装置、电子设备及可读存储介质
CN113327577A (zh) 语音合成方法、装置和电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240402