JP7403569B2 - 音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム - Google Patents

音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7403569B2
JP7403569B2 JP2022050766A JP2022050766A JP7403569B2 JP 7403569 B2 JP7403569 B2 JP 7403569B2 JP 2022050766 A JP2022050766 A JP 2022050766A JP 2022050766 A JP2022050766 A JP 2022050766A JP 7403569 B2 JP7403569 B2 JP 7403569B2
Authority
JP
Japan
Prior art keywords
data
push
text data
extended
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022050766A
Other languages
English (en)
Other versions
JP2022105498A (ja
Inventor
リウ,ロォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022105498A publication Critical patent/JP2022105498A/ja
Application granted granted Critical
Publication of JP7403569B2 publication Critical patent/JP7403569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Description

本出願は、データ処理技術の分野に関し、詳しくは音声認識技術の分野に関し、特に音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体、並びにコンピュータプログラムに関する。
「見たものは言えるもの」とは、音声インタラクションの過程中においてユーザがスクリーン上で読み取った文字を、音声で入力して音声対応動作を行うことができることを指す。
従来の「見たものは言えるもの」の実施形態は、インタフェース上のテキストをスキャンして保存し、認識の過程中にマッチングを行うことが多い。この実施形態では、上記のインタフェーステキストは認識エンジンの訓練を受けていないため、認識のヒット効果又はヒット効率が悪い。ユーザに発音欠陥(例えば、lとr、hとf、前、後の鼻音を区分できないなど)がある場合には、さらに効果又は効率が悪くなる。
音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体、およびコンピュータプログラムを提供する。
第1態様において、本出願の実施形態は、プッシュ情報に対応するプッシュテキストのデータを取得するステップと、プッシュテキストデータを拡張して拡張プッシュデータを取得するステップと、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識されたテキストのデータを音声アシスタントから取得するステップと、この認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するステップとを含む音声認識結果の処理方法を提供する。
第2態様において、本出願の実施形態は、プッシュ情報に対応するプッシュテキストデータを取得するように構成されるプッシュテキストのデータ取得ユニットと、プッシュテキストデータを拡張して拡張プッシュデータを取得するように構成される拡張プッシュデータの取得ユニットと、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを音声アシスタントから取得するように構成される認識ユニットと、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成される判定ユニットとを含む音声認識結果の処理装置を提供する。
第3態様において、本出願の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、メモリに少なくとも1つのプロセッサによって実行可能な指令が記憶され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサが第1態様のいずれか一つの実施形態に記載の音声認識結果の処理方法を実行する電子機器を提供する。
第4態様において、本出願の実施形態は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第1態様のいずれか一つの実施形態に記載の音声認識結果の処理方法を実行させるためのものである非一時的コンピュータ可読記憶媒体を提供する。
第5態様において、本出願の実施形態は、プロセッサによって実行されると、第1態様のいずれか一つの実施形態に記載の音声認識結果の処理方法を実施することを特徴とするコンピュータプログラム製品を提供する。
本出願の実施形態によって提供される音声認識結果処理方法および処理装置は、まず、プッシュ情報に対応するプッシュテキストデータを取得する。そして、プッシュテキストデータを拡張して拡張プッシュデータを取得する。さらに、音声アシスタントから出力された、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを取得する。最後に、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。これにより、プッシュテキストデータを拡張してプッシュ情報に対応する拡張プッシュデータを取得し、認識テキストデータのマッチングのためにテキスト拡張を行い、音声認識結果をマッチングする際のデータの網羅性を保証するとともに、「見えたものは言えるもの」におけるめったに見られない字のマッチング成功率と発音欠陥者グループのためのマッチング成功率が低いという問題を効率的に解決することができる。
上記説明は、本出願の実施形態の肝心または重要な特徴を認識することが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解すべきである。本出願の他の特徴は、以下の説明によって理解しやすくなる。
本出願に係る音声認識結果処理方法の一実施形態のフローチャートである。 本出願に係る拡張プッシュデータを取得する方法のフローチャートである。 本出願に係る認識テキストデータがプッシュ情報にヒットしたと判定する方法の一つのフローチャートである。 本出願に係る音声認識結果処理方法の他の実施形態のフローチャートである。 本出願に係る音声認識結果処理装置の一実施形態の構成概略図である。 本出願の実施形態に係る音声認識結果処理方法を実現するための電子機器のブロック図である。
本出願における図面は、本出願をよりよく理解するために使用されるものであって、本出願を限定するものではない。
以下、図面に関連して、本出願の例示的な実施形態を説明する。理解を容易にするために、本出願の実施形態の様々な詳細を含むが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本出願に記載された実施形態は、本出願の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識するであろう。同様に、以下の説明では、明確化かつ簡略化のために、公知の機能および構造の説明を省略する。
図1は、本出願に係る音声認識結果の処理方法の一実施形態のフローチャート100を示す。上記音声認識結果処理方法は、以下のステップを含む。
ステップ101では、プッシュ情報に対応するプッシュテキストデータを取得する。
本実施形態では、プッシュ情報とは、ユーザにプッシュする情報を指す。プッシュ情報の内容が異なると、実現できるプッシュ情報に対応する動作も異なる。プッシュ情報の提示形式は異なっても良い。例えば、プッシュ情報に対応するプッシュテキストデータ(例えば、プッシュテキストデータは「ページジャンプ」である)がインタフェース上に表示され、ユーザがインタフェース上のプッシュテキストデータを読み取って音声情報を発し、音声アシスタントがユーザの音声情報を取得し、音声情報を認識されたテキストデータに変換して、音声認識結果処理方法を実行する実行主体に送信し、実行主体が上記の認識テキストデータを取得してプッシュテキストと同じであるか否かを判断し、同じであれば所定のページにジャンプする。
本実施形態では、プッシュ情報は、情報識別子、プッシュテキストデータを含んでもよい。音声認識結果処理方法を実行する実行主体はリアルタイムでプッシュ情報を取得し、プッシュ情報に基づいて実行すべき動作を決定することができる。
あるいは、プッシュ情報は、リアルタイムで取得してユーザインタフェース上に表示された動作情報であり得る。上記のプッシュ情報に対応するプッシュテキストデータを取得するステップは、プッシュ情報を取得するステップと、プッシュ情報をユーザインタフェース上に表示し、プッシュ情報をプッシュテキストデータに変換するステップとを含む。
あるいは、プッシュ情報は、ユーザインタフェース上に予め設定された動作情報であってもよい。上記の、プッシュ情報に対応するプッシュテキストデータを取得するステップは、ユーザインタフェース上に予め設定されたプッシュ情報を取得し、プッシュ情報をプッシュテキストデータに変換するステップを含む。
ステップ102では、プッシュテキストデータを拡張して拡張プッシュデータを取得する。
本実施形態では、プッシュテキストデータを拡張することにより、プッシュテキストデータのデータ量を拡充することができるので、音声アシスタントから出力された認識テキストデータとのマッチングを行う際に、マッチング範囲を拡大し、ユーザの意図を深く理解することができる。
本実施形態では、プッシュテキストデータを拡張するステップは、プッシュテキストデータをテキスト拡張することであってもよいし、プッシュテキストデータのピンイン(「
」)のデータを拡張してテキストとピンインとを含む混合データを取得することであってもよい。
あるいは、上記の、プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、プッシュテキストデータにおける単語または文字データを置換して(例えば、「張三」を「張然」に置換して)置換テキストデータを取得し、置換テキストデータとプッシュテキストデータとを組み合わせて拡張プッシュデータを取得することを含む。
本実施形態のいくつかのオプション的又は任意選択的な実施形態では、上記の、プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、プッシュテキストデータに対応するプッシュピンインデータを取得することと、プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換することとを含む。
このオプション的な実施形態では、まずプッシュテキストデータのプッシュピンインデータを取得し、そしてプッシュピンインデータに基づいて文字変換を行い、拡張プッシュデータを取得する。この拡張プッシュデータはプッシュテキストデータに対して、プッシュテキストデータのデータ量を拡充し、その後の音声アシスタントの認識テキストデータにマッチングするために、より信頼できる基礎を提供し、めったに見られないフレーズによるプッシュ情報における中国語の不一致という状況を補うことができる。
本実施形態のいくつかのオプション的な実施形態では、上記のプッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、さらに、予め設定された同義語辞書からプッシュテキストデータに対応する同義テキストデータを取得することと、同義テキストデータを拡張プッシュデータに追加することとを含んでもよい。
このオプション的な実施形態では、プッシュテキストデータと同じ意味を持つ同義テキストデータを拡張プッシュデータに追加することにより、拡張プッシュデータのデータ量を拡充し、同じ意味を持ちながら字が異なることによる中国語の不一致という状況を補うことができる。
あるいは、拡張プッシュデータは、さらに、プッシュテキストデータおよび拡張ピンインデータを含んでもよい。ここで、拡張ピンインデータはプッシュテキストから取得されたピンインデータであり、拡張ピンインデータはプッシュテキストデータに関連付けられている。拡張ピンインデータは、プッシュテキストデータのピンインデータ(すなわち、プッシュピンインデータ)を含んでもよい。
あるいは、拡張ピンインデータは、さらに、プッシュテキストデータのピンインデータおよびプッシュテキストデータの訂正後のピンインデータ、すなわち、プッシュピンインデータおよび訂正ピンインデータを含んでもよい。ここで、訂正ピンインデータは、プッシュピンインデータにおける一部の文字(子音(initial consonant of a syllable:「声母」)および/または母音(compound vowel of the syllable:「韻母」))を置換することによって取得されたピンインデータである。
音声認識結果処理方法を実行する実行主体は、インタフェース上のプッシュ情報をスキャンする過程で、プッシュテキストデータ(たとえば「
(パンシャン)」)およびプッシュテキストデータのピンインデータ(すなわち「panshan」)、プッシュテキストデータの訂正ピンインデータ(たとえば「pansan」、「pangshan」など)をマッピングして保存し、ユーザがインタフェーステキストを音声で入力した時に、それぞれテキストデータ、ピンインデータ、訂正ピンインデータの3レベルで、認識テキストデータと認識テキストデータのピンインデータとにそれぞれマッチングする。
ステップ103では、音声アシスタントから出力された認識テキストデータを取得する。
ここで、認識テキストデータは、ユーザがプッシュ情報を読み取る音声を認識することにより取得される。
本実施形態では、音声アシスタントは、音声情報を取得し、音声情報をテキストデータに変換するために用いられる。ユーザがプッシュ情報を読み取ると、音声アシスタントはユーザが発したプッシュ情報の音声を取得し、その音声を認識テキストデータに変換する。
音声アシスタントはニューラルネットワークモデルのような訓練済み音声認識モデルであってもよい。この音声認識モデルは、大量の音声タグ付きサンプルにより訓練されてなり、音声認識モデルにユーザ音声を入力し、音声認識モデルから出力された、ユーザ音声に関連付けられた認識テキストデータを取得する。
本実施形態のいくつかのオプション的な実施形態では、上記の、音声アシスタントから出力された認識テキストデータを取得するステップは、ユーザがプッシュ情報を読み取る音声を取得することと、音声を音声アシスタントに提供し、音声アシスタントから認識テキストデータを取得することとを含む。
このオプション的な実施形態では、取得したユーザが入力した音声を音声アシスタントに入力し、音声アシスタントからユーザの音声に対応する認識テキストデータを取得することにより、ユーザの音声入力の信頼性を保証し、取得された認識テキストデータの信頼性を向上させることができる。
ステップ104では、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。
本実施形態では、認識テキストデータにおける各データと拡張プッシュデータにおける各データとをいちいち照合し、認識テキストデータと拡張プッシュデータの両方に同じまたは類似している(例えば、類似度が90%より大きい)データがある場合に、認識テキストデータと拡張プッシュデータとがマッチングしていると判定する。
本実施形態では、認識テキストデータがプッシュ情報にヒットしたとは、現在の状況が「見たものは言えるもの」であり、ユーザが発したプッシュ情報の音声に関する動作を実行してもよいことを示している。一方、認識テキストデータがプッシュ情報にヒットしていないことは、現在の状況が「見たものは言えるもの」ではないことを示している。
あるいは、認識テキストデータが拡張プッシュデータとマッチングしていないと判断したことに応答して、認識テキストデータがプッシュ情報にヒットしていないと判定し、何らの動作も実行しない。
認識テキストデータがプッシュ情報にヒットした後、実行主体は、プッシュ情報に応じた動作を実行することができる。なお、プッシュ情報に応じた動作は、プッシュ情報から指示された動作である。例えば、プッシュ情報にはWebページを開く指令とWebページのサイトが含まれると、プッシュ情報に応じた動作は、プッシュ情報におけるサイトに対応するWebページに直接ジャンプする。
本出願の実施形態によって提供される音声認識結果処理方法は、まず、プッシュ情報に対応するプッシュテキストデータを取得する。そして、プッシュテキストデータを拡張して拡張プッシュデータを取得する。さらに、音声アシスタントから出力された、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを取得する。最後に、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。これにより、プッシュテキストデータを拡張することでプッシュ情報に対応する拡張プッシュデータを取得し、認識テキストデータのマッチングのためにテキスト拡張を行い、音声認識結果をマッチングする際のデータの網羅性を保証するとともに、「見たものは言えるもの」におけるめったに見られない字のマッチング成功率と発音欠陥者グループのためのマッチング成功率が低いという問題を効率的に解決することができる。
本実施形態では、拡張プッシュデータは、複数種のテキストデータであり得る。各種のテキストデータは、プッシュテキストデータのピンインデータによって変換または置換されて取得されたテキストであり得る。図2は、本出願に係るプッシュテキストデータに対応する拡張プッシュデータを取得する方法のフローチャート200を示す。上記の、プッシュテキストデータに対応する拡張プッシュデータを取得する方法は、以下のステップを含む。
ステップ201では、プッシュテキストデータに対応するプッシュピンインデータを取得する。
このオプション的な実施形態では、プッシュテキストデータは1種の中国語データである。従来のピンイン変換ツールにより、プッシュテキストを対応するプッシュピンインデータに変換することができる。
あるいは、音声認識結果処理方法を実行する実行主体は、複数のテキストデータに対応するピンインデータを予め記憶しておくことが可能であり、実行主体はプッシュテキストデータを取得した後に、予め記憶しているデータから、プッシュテキストデータに対応するプッシュピンインデータをクエリすることができる。
ステップ202では、プッシュピンインデータを第1のテキストデータに変換する。
このオプション的な実施形態では、プッシュピンインデータはプッシュテキストデータのピンインデータである。プッシュピンインデータを中国語テキストに変換することにより、第1のテキストデータを取得することができる。第1のテキストデータはプッシュテキストと同じ発音を有するすべてのテキストデータであり、第1のテキストデータにはプッシュテキストデータが含まれている。
ステップ203では、プッシュピンインデータにおける一部のピンイン文字を置換して訂正ピンインデータを取得する。
このオプション的な実施形態では、音声アシスタントが発音に欠陥のある人を認識する際に十分なマッチング対象データを提供するために、プッシュピンインデータにおける一部のピンイン文字を置換して訂正ピンインデータを取得することができる。
このオプション的な実施形態では、プッシュピンインデータにおける一部のピンイン文字を置換するステップは、予め設定された置換表(表1を参照)をクエリすることで、プッシュピンインデータにおける子音文字および/または母音を置換して、訂正ピンインデータを取得することを含む。例えば、表1におけるプッシュピンインデータ「lejin」の子音を置換して、「rejin」を取得した。「rejin」は訂正ピンインデータである。
このオプション的な実施形態では、子音または母音を置換することで発音に欠陥のある人のために信頼できるマッチングデータを用意することができる。
ステップ204では、訂正ピンインデータを第2のテキストデータに変換する。
このオプション的な実施形態では、訂正ピンインデータが第2のテキストデータのピンインデータである。訂正ピンインデータを中国語テキストに変換することにより、第2のテキストデータを取得することができる。
ステップ205では、第2のテキストデータと第1のテキストデータとを組み合わせて拡張プッシュデータを取得する。
このオプション的な実施形態では、拡張プッシュデータは、テキストデータからなるデータセットであり、当該データセットには第1のテキストデータおよび第2のテキストデータが混合され、第1のテキストデータにはさらに、プッシュテキストデータが含まれている。
このオプション的な実施形態では、上記の認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するステップは、認識テキストデータが第2のテキストデータと、第1のテキストデータとのうちのいずれか一つのデータにそれぞれマッチングすることに応答して、認識テキストデータがプッシュ情報にヒットしたと判定することを含む。
本実施形態に係るプッシュテキストデータに対応する拡張プッシュデータを取得する方法は、プッシュピンインデータに基づいて第1のテキストデータを取得するステップと、プッシュピンインデータに基づいて訂正ピンインデータを取得し、訂正ピンインデータを第2のテキストデータに変換するステップと、第2のテキストデータと第1のテキストデータとを組み合わせて拡張プッシュデータを取得するステップとを含む。これにより、拡張プッシュデータにおけるデータの多様性を向上させることができる。
図3は、本出願に係る認識テキストデータがプッシュ情報にヒットしたと判定する方法のフローチャート300を示す。上記の認識テキストデータがプッシュ情報にヒットしたと判定する方法は以下のステップを含む。
ステップ301では、認識テキストデータが拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判断したことに応答して、認識テキストデータを認識ピンインデータに変換する。
このオプション的な実施形態では、認識テキストデータと拡張プッシュデータをマッチングする際には、まず認識テキストデータと拡張プッシュデータにおけるプッシュテキストデータとをマッチングする。認識テキストデータの各データとプッシュテキストデータにおけるいずれのデータとは同一でも類似でもない(例えば、両者の類似度が80%より小さい)場合には、認識テキストデータが拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判定する。
このオプション的な実施形態では、認識ピンインデータは、認識テキストデータのピンインの表現形式である。認識ピンインデータに基づいて認識テキストのピンイン内容を確定する。
ステップ302では、認識ピンインデータと拡張ピンインデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。
このオプション的な実施形態では、まず認識ピンインデータにおける各データと拡張ピンインデータの各データとをいちいちマッチングする。認識ピンインデータにおけるデータと拡張ピンインデータのいずれかのピンインデータとがマッチングしている場合には、認識ピンインデータと拡張ピンインデータとがマッチングしていると判定する。
このオプション的な実施形態に係る認識テキストデータがプッシュ情報にヒットしたと判定する方法は、認識テキストデータを認識ピンインデータに変換し、拡張ピンインデータと認識ピンインデータとのマッチングにより認識テキストデータがプッシュ情報にヒットしたと判定する。これにより、認識テキストデータの認識に複数のオプション的なマッチング方式を提供し、認識テキストデータのマッチングの有効性を保証することができる。
本実施形態のいくつかのオプション的な実施形態では、拡張プッシュデータは、優先度の異なる拡張データを含む。認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するステップは、拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングすることと、拡張プッシュデータのうち、少なくとも1つの拡張データと認識テキストデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定することとを含む。
このオプション的な実施形態では、拡張データはテキストデータであってもよく、拡張データはピンインデータであってもよい。拡張プッシュデータはテキストデータとピンインデータを含むか、あるいは拡張プッシュデータはテキストデータを含む。拡張プッシュデータにおいては、テキストデータの優先度はピンインデータの優先度よりも高い。同様にテキストデータに属するデータの場合には、プッシュテキストデータに近いテキストデータほど優先度が高い。例えば、拡張プッシュデータはプッシュテキストデータとプッシュテキストに対応する同義テキストデータを含む場合には、プッシュテキストデータの優先度が当該同義テキストデータよりも高い。
あるいは、拡張プッシュデータはプッシュテキストデータとプッシュピンインデータを含む場合には、プッシュピンインデータの優先度がプッシュテキストデータの優先度よりも低い。
あるいは、拡張プッシュデータがプッシュテキストデータ、プッシュピンインデータ、および訂正ピンインデータを含む場合には、プッシュピンインデータの優先度はプッシュテキストデータの優先度よりも低く、訂正ピンインデータの優先度はプッシュピンインデータの優先度よりも低い。
このオプション的な実施形態では、拡張プッシュデータにおける各拡張データの優先度に基づいて認識テキストデータとのマッチングを行うことにより、認識テキストに最も近いデータを先にマッチングすることを保証し、「見たものは言えるもの」のマッチング効果を保証することができる。
本実施形態の一実例では、音声認識結果処理方法を実行する実行主体の実行ステップは次の通りである。ステップ1では、ユーザインタフェース上の要素(ボタン、テキストボックス等)をスキャンし、各要素におけるプッシュテキストデータを取得する。ステップ2では、プッシュテキストを拡張、マッピングおよび保存し、拡張プッシュデータを取得する。拡張プッシュデータは、プッシュテキストデータ(例えば、「
」)およびプッシュピンインデータ(すなわち、「panshan」)、訂正ピンインデータ(「pansan」、「pangshan」など)を含む。ステップ3では、ユーザは音声アシスタントを介して指令を入力し、音声アシスタントは指令を認識テキストデータとして認識する。ステップ4では、認識テキストデータと拡張プッシュデータとを次のように3段階のマッチングを行う。
1)認識テキストデータR1がキャッシュされた拡張プッシュデータにおけるプッシュテキストデータとマッチングするか否かを判定する(すなわち、認識テキストデータとプッシュテキストデータとを文字ごとにマッチングする)。
2)認識テキストデータR1がキャッシュされた拡張プッシュデータにおけるプッシュテキストデータとマッチングしていない場合には、認識テキストデータR1のピンインデータがキャッシュされた拡張プッシュデータにおけるプッシュピンインデータとマッチングするか否かを判定する。
3)認識テキストデータR1のピンインデータがキャッシュされた拡張プッシュデータにおけるプッシュピンインデータとマッチングしていない場合には、認識テキストデータR1のピンインデータが拡張プッシュデータにおける訂正ピンインデータとマッチングするか否かを判定する。
1)、2)、3)の三段階のマッチングのうち、いずれか一つの段階のマッチングが成功した場合には、次の段階のマッチングの判断を行わない(例えば、1)の段階のマッチングが成功した場合には、2)の段階のマッチングプロセスを実行しない)ようにするとともに、「見たものは言えるもの」にヒットしたと判定する。1)、2)、3)の3段階のマッチングがいずれも成功しなかった場合には、「見たものは言えるもの」にヒットしていないと判定する。
図4は、本出願に係る音声認識結果処理方法の他の実施形態のフローチャート400を示す。上記の音声認識結果処理方法は、以下のステップを含む。
ステップ401では、プッシュ情報に対応するプッシュテキストデータを取得する。
ステップ402では、プッシュテキストデータを拡張して拡張プッシュデータを取得する。
ステップ403では、音声アシスタントから出力された認識テキストデータを取得する。
ここで、認識テキストデータは、ユーザがプッシュ情報を読み取る音声を認識することにより取得される。
上記のステップ401~403における動作および特徴は、それぞれステップ101~103の動作および特徴に対応するので、ステップ101~103における動作および特徴に関する上記の説明は、ステップ401~403にも同様に適用可能であることを理解すべきである。ここではこれ以上説明しない。
ステップ404では、認識テキストデータが拡張プッシュデータとマッチングしていないと判断したことに応答して、認識テキストデータを拡張して拡張認識データを取得する。
本実施形態では、認識テキストデータを拡張して拡張認識データを取得するステップは、認識テキストデータに対応する認識ピンインデータを取得することと、認識ピンインデータを拡張認識データに変換することと、を含んでもよい。本実施形態では、拡張認識データとは認識テキストデータと同じ発音を有するテキストデータであり、拡張認識データには認識テキストデータが含まれている。
あるいは、上記の認識テキストデータを拡張して拡張認識データを取得するステップは、認識テキストデータに対応する認識ピンインデータを取得することと、認識ピンインデータを第1の選択待ちテキストデータに変換することと、認識ピンインデータにおける子音または母音を置換して代替ピンインデータを取得することと、代替ピンインデータを第2の選択待ちテキストデータに変換することと、第1の選択待ちテキストデータと第2の選択待ちテキストデータとを組み合わせて拡張認識データを取得することとを含んでもよい。
このオプション的な実施形態では、認識ピンインデータは認識テキストデータに対応するすべてのピンイン表現形式であり、代替ピンインデータは認識ピンインデータにおけるピンイン文字を置換したピンイン表現形式である。第1の選択待ちテキストデータは認識ピンインデータのすべての中国語表現形式であり、第2の選択待ちテキストデータは代替ピンインデータのすべての中国語表現形式である。
あるいは、上記の認識テキストデータを拡張して拡張認識データを取得するステップは、認識テキストデータに対応する認識ピンインデータを取得することと、認識ピンインデータにおける子音または母音を置換して代替ピンインデータを取得することと、認識テキストデータ、認識ピンインデータ、および代替ピンインデータを組み合わせて拡張認識データを取得することとを含んでもよい。
あるいは、上記の認識テキストデータを拡張して拡張認識データを取得するステップは、予め設定された同義語辞書から認識テキストデータに対応する同義テキストデータを取得し、認識テキストデータと認識テキストデータに対応する同義テキストデータとを組み合わせて拡張認識データを取得することを含んでもよい。
このオプション的な実施形態では、拡張認識データには、認識テキストデータと認識テキストデータの同義テキストデータが含まれている。
ステップ405では、拡張認識データと拡張プッシュデータとがマッチングしていることに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。
本実施形態では、拡張認識データにおける各データをそれぞれ拡張プッシュデータにおける各データとマッチングさせる。拡張認識データに拡張プッシュデータと同じまたは類似しているデータがある場合には、拡張認識データと拡張プッシュデータとがマッチングしていると判定する。
本実施形態では、拡張認識データと拡張プッシュデータとがマッチングしている場合には、音声アシスタントが取得した認識テキストが、プッシュ情報に対応するプッシュテキストデータに関連していることを示している。これにより、ユーザが音声を通じて「見たものは言えるもの」をトリガしようとしていると判定し、プッシュ情報に関する動作を実行する。
本実施形態に係る音声認識結果処理方法は、認識テキストデータが拡張プッシュデータとマッチングしていない場合には、認識テキストデータを拡張して拡張認識データを取得する。これにより、音声アシスタントの認識データを拡張し、音声の認識に誤りがあった時に信頼できるデータ根拠を提供し、音声認識の信頼性を保証することができる。
さらに図5を参照して、上記の各図に示す方法の実施形態として、本出願は音声認識結果処理装置の一実施形態を提供する。当該装置の実施形態は図1に示す方法の実施形態に対応する。当該装置は、具体的には、様々な電子機器に適用することができる。
図5に示すように、本実施形態に係る音声認識結果処理装置500は、プッシュテキストデータ取得ユニット501と、拡張プッシュデータ取得ユニット502と、認識ユニット503と、判定ユニット504とを含む。ここで、上記のプッシュテキストデータ取得ユニット501は、プッシュ情報に対応するプッシュテキストデータを取得するように構成されていてもよい。上記の拡張プッシュデータ取得ユニット502は、プッシュテキストデータを拡張して拡張プッシュデータを取得するように構成されていてもよい。上記の認識ユニット503は、音声アシスタントから出力された、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを取得するように構成されていてもよい。上記の判定ユニット504は、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成されていてもよい。
本実施形態では、音声認識結果処理装置500におけるプッシュテキストデータ取得ユニット501、拡張プッシュデータ取得ユニット502、認識ユニット503、判定ユニット504の具体的な処理およびそれによる技術的効果は、それぞれ、図1に対応する実施形態におけるステップ101、ステップ102、ステップ103、ステップ104について説明した内容を参照することができる。ここではこれ以上説明しない。
本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータ取得ユニット502は、第1の取得モジュール(図示せず)と、第1の変換モジュール(図示せず)とを含む。ここで、上記の第1の取得モジュールは、プッシュテキストデータに対応するプッシュピンインデータを取得するように構成されていてもよい。上記の第1の変換モジュールは、プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するように構成されていてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータ取得ユニット502は、第2の取得モジュール(図示せず)と、第2の変換モジュール(図示せず)と、置換モジュール(図示せず)と、第3の変換モジュール(図示せず)と、組み合わせモジュールとを含む。ここで、上記の第2の取得モジュールは、プッシュテキストデータに対応するプッシュピンインデータを取得するように構成されていてもよい。上記の第2の変換モジュールは、プッシュピンインデータを第1のテキストデータに変換するように構成されていてもよい。上記の置換モジュールは、プッシュピンインデータにおける一部のピンイン文字を置換し、訂正ピンインデータを取得するように構成されていてもよい。上記の第3の変換モジュールは、訂正ピンインデータを第2のテキストデータに変換するように構成されていてもよい。上記の組み合わせモジュールは、第2のテキストデータと第1のテキストデータとを組み合わせて拡張プッシュデータを取得するように構成されていてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータ取得ユニット502は、さらに、第4の取得モジュール(図示せず)と、追加モジュール(図示せず)とを含む。ここで、上記の第4の取得モジュールは、予め設定された同義語辞書からプッシュテキストデータに対応する同義テキストデータを取得するように構成されていてもよい。上記の追加モジュールは、同義テキストデータを拡張プッシュデータに追加するように構成されていてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータは、プッシュテキストデータと、プッシュテキストデータに基づいて取得された拡張ピンインデータとを含む。上記の判定ユニット504は、認識モジュール(図示せず)と、判定モジュール(図示せず)とを含む。ここで、上記の認識モジュールは、認識テキストデータが拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判断したことに応答して、認識テキストデータを認識ピンインデータに変換するように構成されていてもよい。上記の判定モジュールは、認識ピンインデータと拡張ピンインデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成されていてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記の拡張プッシュデータは、優先度の異なる拡張データを含む。上記の判定ユニット504は、マッチングモジュール(図示せず)と、ヒットモジュール(図示せず)とを含む。ここで、上記のマッチングモジュールは、拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングするように構成されていてもよい。上記のヒットモジュールは、拡張プッシュデータのうち、少なくとも1つの拡張データと認識テキストデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成されていてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記の認識ユニット503は、第5の取得モジュール(図示せず)と、提供モジュール(図示せず)とを含む。ここで、上記の第5の取得モジュールは、ユーザがプッシュ情報を読み取る音声を取得するように構成されていてもよい。上記の提供モジュールは、音声を音声アシスタントに提供し、音声アシスタントから認識テキストデータを取得するように構成されていてもよい。
本実施形態のいくつかのオプション的な実施形態では、上記の装置500は、さらに、判別ユニット(図示せず)と、ヒットユニット(図示せず)とを含む。ここで、上記の判別ユニットは、認識テキストデータが拡張プッシュデータとマッチングしていないと判断したことに応答して、認識テキストを拡張して拡張認識データを取得するように構成されていてもよい。上記のヒットユニットは、拡張認識データと拡張プッシュデータとがマッチングしていることに応答して、認識テキストデータがプッシュ情報にヒットしたと判定するように構成されていてもよい。
本出願の実施形態に係る音声認識結果処理装置では、まず、プッシュテキストデータ取得ユニット501はプッシュ情報に対応するプッシュテキストデータを取得する。そして、拡張プッシュデータ取得ユニット502はプッシュテキストデータを拡張して拡張プッシュデータを取得する。さらに、認識ユニット503は音声アシスタントから出力された、ユーザがプッシュ情報を読み取る音声を認識することにより取得された認識テキストデータを取得する。最後に、判定ユニット504は、認識テキストデータと拡張プッシュデータとがマッチングしていると判断したことに応答して、認識テキストデータがプッシュ情報にヒットしたと判定する。これにより、プッシュテキストデータを拡張することでプッシュ情報に対応する拡張プッシュデータを取得し、認識テキストデータのマッチングのためのテキスト拡張が達成され、音声認識結果をマッチングする際のデータの網羅性を保証するとともに、「見たものは言えるもの」におけるめったに見られない字のマッチング成功率と発音欠陥者グループのためのマッチング成功率が低いという問題を効率的に解決することができる。
本出願の実施形態によれば、本出願はさらに、電子機器、読み取り可能な記憶媒体、およびコンピュータプログラムを提供する
図6は、本出願の実施形態を実施するために使用されることができる例示的な電子機器600の概略ブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスのような様々な形態のモバイルデバイスを表すことができる。本明細書に示すコンポーネント、それらの接続と関係、およびそれらの機能は、一例に過ぎず、本明細書に記載されたおよび/または要求した本明細書の実装を限定することは意図されていない。
図6に示すように、機器600は、読み出し専用メモリ(ROM)602に記憶されたコンピュータプログラムまたは、記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに基づいて、様々な適切な動作および処理を実行することができる計算ユニット601を含む。RAM603には機器600の動作に必要な各種プログラムおよびデータも記憶されることができる。計算ユニット601、ROM602およびRAM603は、バス604を介して互いに接続されている。入出力(I/O)インタフェース605もバス604に接続されている。
機器600における複数のコンポーネントは、I/Oインタフェース605に接続されている。それには、キーボード、マウスなどの入力ユニット606と、各種のディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、NIC、モデム、無線通信送受信機などの通信ユニット609と、が含まれる。通信ユニット609は、機器600が、インターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット601は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は、上述した様々な方法および処理、例えば、音声認識結果処理方法を実行する。例えば、いくつかの実施形態では、音声認識結果処理方法は、記憶ユニット608のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介して機器600にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM603にロードされ、計算ユニット601によって実行される場合には、上述した音声認識結果処理方法の1つまたは複数のステップを実行することができる。あるいは、他の実施形態では、計算ユニット601は、他の任意の適切な方法を通じて(例えば、ファームウェアによって)、音声認識結果処理方法を実行するように構成されてもよい。
本明細書に述べた上記システムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、オンチップシステムのシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装することができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラム内に実装されることを含んでもよい。当該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができる。当該プログラマブルプロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび指令を受信し、データおよび指令を当該記憶システム、当該少なくとも1つの入力デバイス、および当該少なくとも1つの出力デバイスに送信することができる専用または汎用プログラマブルプロセッサであり得る。
本明細書の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせを用いて書くことができる。これらのプログラムコードは、プロセッサまたはコントローラによって実行されるときに、フローチャートおよび/またはブロック図に規定された機能/動作を実施するように、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供することができる。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、独立したソフトウェアパッケージとして機械上で部分的に実行されかつ遠隔機械上で部分的に実行され、または完全に遠隔機械もしくはサーバ上で実行されることができる。
本明細書の文脈では、機械可読媒体は、指令実行システム、機器、もしくはデバイスが使用するため、または指令実行システム、機器、もしくはデバイスと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体としてもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体としてもよい。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、機器もしくはデバイス、またはこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1本または複数本の導線に基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯式コンパクトディスク読取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、本明細書に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを有するコンピュータ上で実施されてもよく、ユーザはキーボードおよびポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類のデバイスはさらに、ユーザとのインタラクションを提供するために使用されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよい。ユーザからの入力は、任意の形態(音響入力、音声入力、または触覚入力を含む)で受信されてもよい。
本明細書に記載されたシステムおよび技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとして)、またはミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ。ユーザは当該グラフィカルユーザインターフェースまたは当該ウェブブラウザを介して、本明細書に記載されたシステムおよび技術の実施形態とインタラクションすることができる)、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、もしくはフロントエンドコンポーネントの任意の組み合わせを含む計算システムにおいて実装されてもよい。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含んでもよい。クライアントおよびサーバは、通常、互いに離れており、一般的に通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータ上で動作し、かつ互いにクライアント・サーバの関係にあるコンピュータプログラムによって生成される。
本出願の技術的解決手段では、関連するユーザ個人情報の取得、記憶、応用などは、関連する法律法規の規定に合致しており、公序良俗に反しない。
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番で実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。
上述した具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項1:
プッシュ情報に対応するプッシュテキストデータを取得するステップと、
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップと、
ユーザが前記プッシュ情報を読み取る音声を認識した認識テキストデータを音声アシスタントから取得するステップと、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
を含む音声認識結果処理方法。
請求項2:
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
前記プッシュテキストデータに対応するプッシュピンインデータを取得するステップと、
前記プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するステップと
を含む、請求項1に記載の音声認識結果処理方法。
請求項3:
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
前記プッシュテキストデータに対応するプッシュピンインデータを取得するステップと、
前記プッシュピンインデータを第1のテキストデータに変換するステップと、
前記プッシュピンインデータにおける一部のピンイン文字を置換して訂正ピンインデータを取得するステップと、
前記訂正ピンインデータを第2のテキストデータに変換するステップと、
前記第2のテキストデータと前記第1のテキストデータとを組み合わせて拡張プッシュデータを取得するステップと
を含む、請求項1に記載の音声認識結果処理方法。
請求項4:
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
予め設定された同義語辞書から前記プッシュテキストデータに対応する同義テキストデータを取得するステップと、
前記同義テキストデータを前記拡張プッシュデータに追加するステップと
を含む、請求項2または3に記載の音声認識結果処理方法。
請求項5:
前記拡張プッシュデータは、前記プッシュテキストデータと、前記プッシュテキストデータに基づいて取得された拡張ピンインデータとを含み、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップは、
前記認識テキストデータが前記拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判断したことに応答して、前記認識テキストデータを認識ピンインデータに変換するステップと、
前記認識ピンインデータと前記拡張ピンインデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
を含む、請求項1に記載の音声認識結果処理方法。
請求項6:
前記拡張プッシュデータは優先度の異なる拡張データを含み、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップは、
前記拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングするステップと、
前記拡張プッシュデータのうちの少なくとも1つの拡張データと、前記認識テキストデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
を含む、請求項1に記載の音声認識結果処理方法。
請求項7:
認識テキストデータを音声アシスタントから取得するステップは、
ユーザが前記プッシュ情報を読み取る音声を取得するステップと、
前記音声を音声アシスタントに提供し、前記音声アシスタントから認識テキストデータを取得するステップと
を含む、請求項1~6のいずれか一項に記載の音声認識結果処理方法。
請求項8:
前記認識テキストデータが前記拡張プッシュデータとマッチングしていないと判断したことに応答して、前記認識テキストを拡張して拡張認識データを取得するステップと、
前記拡張認識データと前記拡張プッシュデータとがマッチングしていることに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
をさらに含む、請求項7に記載の音声認識結果処理方法。
請求項9:
プッシュ情報に対応するプッシュテキストデータを取得するように構成されるプッシュテキストデータ取得ユニットと、
前記プッシュテキストデータを拡張して拡張プッシュデータを取得するように構成される拡張プッシュデータ取得ユニットと、
ユーザが前記プッシュ情報を読み取る音声を認識した認識テキストデータを音声アシスタントから取得するように構成される認識ユニットと、
前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するように構成される判定ユニットと
を含む音声認識結果処理装置。
請求項10:
前記拡張プッシュデータ取得ユニットは、
前記プッシュテキストデータに対応するプッシュピンインデータを取得するように構成される取得モジュールと、
前記プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するように構成される変換モジュールと
を含む、請求項9に記載の音声認識結果処理装置。
請求項11:
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
前記メモリに前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~8のいずれか一項に記載の音声認識結果処理方法を実行することを特徴とする電子機器。
請求項12:
コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項1~8のいずれか一項に記載の音声認識結果処理方法を実行させるためのものである非一時的コンピュータ可読記憶媒体。
請求項13:
プロセッサによって実行されると、請求項1~8のいずれか一項に記載の音声認識結果処理方法を実行するコンピュータプログラム。

Claims (12)

  1. 以下の各ステップがコンピュータによって実行される音声認識結果処理方法であって、
    プッシュ情報に対応するプッシュテキストデータを取得するステップと、
    前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップと、
    ユーザが前記プッシュ情報を読み取る音声を認識した認識テキストデータを音声アシスタントから取得するステップと、
    前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
    を含み、
    前記拡張プッシュデータは優先度の異なる拡張データを含み、
    前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップは、
    前記拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングするステップと、
    前記拡張プッシュデータのうちの少なくとも1つの拡張データと、前記認識テキストデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
    を含む音声認識結果処理方法。
  2. 前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
    前記プッシュテキストデータに対応するプッシュピンインデータを取得するステップと、
    前記プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するステップと
    を含む、請求項1に記載の音声認識結果処理方法。
  3. 前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
    前記プッシュテキストデータに対応するプッシュピンインデータを取得するステップと、
    前記プッシュピンインデータを第1のテキストデータに変換するステップと、
    前記プッシュピンインデータにおける一部のピンイン文字を置換して訂正ピンインデータを取得するステップと、
    前記訂正ピンインデータを第2のテキストデータに変換するステップと、
    前記第2のテキストデータと前記第1のテキストデータとを組み合わせて拡張プッシュデータを取得するステップと
    を含む、請求項1に記載の音声認識結果処理方法。
  4. 前記プッシュテキストデータを拡張して拡張プッシュデータを取得するステップは、
    予め設定された同義語辞書から前記プッシュテキストデータに対応する同義テキストデータを取得するステップと、
    前記同義テキストデータを前記拡張プッシュデータに追加するステップと
    を含む、請求項2または3に記載の音声認識結果処理方法。
  5. 前記拡張プッシュデータは、前記プッシュテキストデータと、前記プッシュテキストデータに基づいて取得された拡張ピンインデータとを含み、
    前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップは、
    前記認識テキストデータが前記拡張プッシュデータにおけるプッシュテキストデータとマッチングしていないと判断したことに応答して、前記認識テキストデータを認識ピンインデータに変換するステップと、
    前記認識ピンインデータと前記拡張ピンインデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
    を含む、請求項1に記載の音声認識結果処理方法。
  6. 認識テキストデータを音声アシスタントから取得するステップは、
    ユーザが前記プッシュ情報を読み取る音声を取得するステップと、
    前記音声を音声アシスタントに提供し、前記音声アシスタントから認識テキストデータを取得するステップと
    を含む、請求項1~のいずれか一項に記載の音声認識結果処理方法。
  7. 前記認識テキストデータが前記拡張プッシュデータとマッチングしていないと判断したことに応答して、前記認識テキストを拡張して拡張認識データを取得するステップと、
    前記拡張認識データと前記拡張プッシュデータとがマッチングしていることに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するステップと
    をさらに含む、請求項に記載の音声認識結果処理方法。
  8. プッシュ情報に対応するプッシュテキストデータを取得するように構成されるプッシュテキストデータ取得ユニットと、
    前記プッシュテキストデータを拡張して拡張プッシュデータを取得するように構成される拡張プッシュデータ取得ユニットと、
    ユーザが前記プッシュ情報を読み取る音声を認識した認識テキストデータを音声アシスタントから取得するように構成される認識ユニットと、
    前記認識テキストデータと前記拡張プッシュデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するように構成される判定ユニットと
    を含み、
    前記拡張プッシュデータは優先度の異なる拡張データを含み、
    前記判定ユニットは、さらに、
    前記拡張プッシュデータにおける各拡張データの優先順位に基づいて、認識テキストデータと各拡張データとを順次マッチングし、
    前記拡張プッシュデータのうちの少なくとも1つの拡張データと、前記認識テキストデータとがマッチングしていると判断したことに応答して、前記認識テキストデータが前記プッシュ情報にヒットしたと判定するように構成される音声認識結果処理装置。
  9. 前記拡張プッシュデータ取得ユニットは、
    前記プッシュテキストデータに対応するプッシュピンインデータを取得するように構成される取得モジュールと、
    前記プッシュテキストデータに対応するプッシュピンインデータを拡張プッシュデータに変換するように構成される変換モジュールと
    を含む、請求項に記載の音声認識結果処理装置。
  10. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを含む電子機器であって、
    前記メモリに前記少なくとも1つのプロセッサによって実行可能な指令が記憶され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサが請求項1~のいずれか一項に記載の音声認識結果処理方法を実行することを特徴とする電子機器。
  11. コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項1~のいずれか一項に記載の音声認識結果処理方法を実行させるためのものである非一時的コンピュータ可読記憶媒体。
  12. プロセッサによって実行されると、請求項1~のいずれか一項に記載の音声認識結果処理方法を実行するコンピュータプログラム。
JP2022050766A 2021-05-25 2022-03-25 音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム Active JP7403569B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110573467.5 2021-05-25
CN202110573467.5A CN113299293A (zh) 2021-05-25 2021-05-25 语音识别结果处理方法和装置、电子设备、计算机介质

Publications (2)

Publication Number Publication Date
JP2022105498A JP2022105498A (ja) 2022-07-14
JP7403569B2 true JP7403569B2 (ja) 2023-12-22

Family

ID=77325058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022050766A Active JP7403569B2 (ja) 2021-05-25 2022-03-25 音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220215842A1 (ja)
EP (1) EP4095847A1 (ja)
JP (1) JP7403569B2 (ja)
KR (1) KR20220041789A (ja)
CN (1) CN113299293A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011064829A1 (ja) 2009-11-30 2011-06-03 株式会社 東芝 情報処理装置
JP2014106523A (ja) 2012-11-30 2014-06-09 Aisin Aw Co Ltd 音声入力対応装置及び音声入力対応プログラム
JP2019091418A (ja) 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ページを制御する方法および装置
CN110619879A (zh) 2019-08-29 2019-12-27 深圳市梦网科技发展有限公司 一种语音识别的方法及装置
CN112509566A (zh) 2020-12-22 2021-03-16 北京百度网讯科技有限公司 一种语音识别方法、装置、设备、存储介质及程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107659847B (zh) * 2016-09-22 2019-10-15 腾讯科技(北京)有限公司 语音互动方法和装置
CN107808007A (zh) * 2017-11-16 2018-03-16 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN109710929A (zh) * 2018-12-18 2019-05-03 金蝶软件(中国)有限公司 一种语音识别文本的校正方法、装置、计算机设备和存储介质
CN110310634A (zh) * 2019-06-19 2019-10-08 广州小鹏汽车科技有限公司 车载语音推送方法、终端、服务器以及推送系统
CN111554297B (zh) * 2020-05-15 2023-08-22 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备及可读存储介质
CN112767925B (zh) * 2020-12-24 2023-02-17 贝壳技术有限公司 语音信息识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011064829A1 (ja) 2009-11-30 2011-06-03 株式会社 東芝 情報処理装置
JP2014106523A (ja) 2012-11-30 2014-06-09 Aisin Aw Co Ltd 音声入力対応装置及び音声入力対応プログラム
JP2019091418A (ja) 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ページを制御する方法および装置
CN110619879A (zh) 2019-08-29 2019-12-27 深圳市梦网科技发展有限公司 一种语音识别的方法及装置
CN112509566A (zh) 2020-12-22 2021-03-16 北京百度网讯科技有限公司 一种语音识别方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN113299293A (zh) 2021-08-24
US20220215842A1 (en) 2022-07-07
KR20220041789A (ko) 2022-04-01
EP4095847A1 (en) 2022-11-30
JP2022105498A (ja) 2022-07-14

Similar Documents

Publication Publication Date Title
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
US9805718B2 (en) Clarifying natural language input using targeted questions
JP2022028887A (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
US11907671B2 (en) Role labeling method, electronic device and storage medium
WO2021051514A1 (zh) 一种语音识别方法、装置、计算机设备及非易失性存储介质
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JP7413630B2 (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
WO2016008128A1 (en) Speech recognition using foreign word grammar
US10553203B2 (en) Training data optimization for voice enablement of applications
US20230178067A1 (en) Method of training speech synthesis model and method of synthesizing speech
US20220375456A1 (en) Method for animation synthesis, electronic device and storage medium
US20230004798A1 (en) Intent recognition model training and intent recognition method and apparatus
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
CN113656546A (zh) 多模态搜索方法、装置、设备、存储介质以及程序产品
JP7403569B2 (ja) 音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
WO2023193442A1 (zh) 语音识别方法、装置、设备和介质
JP7349523B2 (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
JP7372402B2 (ja) 音声合成方法、装置、電子機器及び記憶媒体
WO2019184942A1 (zh) 语言语义的音频交换方法和音频交换系统、编码图形
JP6090785B2 (ja) テキストデータ分割装置、テキストデータ分割方法、テキストデータ分割プログラム及び翻訳装置
JP7204861B2 (ja) 中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体
CN113553833B (zh) 文本纠错的方法、装置及电子设备
CN113743102A (zh) 识别字符的方法、装置以及电子设备
CN113066498B (zh) 信息处理方法、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231212

R150 Certificate of patent or registration of utility model

Ref document number: 7403569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150