JP7403571B2 - 音声検索方法、装置、電子機器、コンピュータ読み取り可能な媒体及びコンピュータプログラム - Google Patents

音声検索方法、装置、電子機器、コンピュータ読み取り可能な媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP7403571B2
JP7403571B2 JP2022056210A JP2022056210A JP7403571B2 JP 7403571 B2 JP7403571 B2 JP 7403571B2 JP 2022056210 A JP2022056210 A JP 2022056210A JP 2022056210 A JP2022056210 A JP 2022056210A JP 7403571 B2 JP7403571 B2 JP 7403571B2
Authority
JP
Japan
Prior art keywords
data
search
data set
text
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022056210A
Other languages
English (en)
Other versions
JP2022103161A (ja
Inventor
ロォン・リウ
ジアンタオ・リィー
シュエイエン・フゥー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022103161A publication Critical patent/JP2022103161A/ja
Application granted granted Critical
Publication of JP7403571B2 publication Critical patent/JP7403571B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Description

本開示は、データ処理技術分野に関し、具体的には車両のインターネット、スマートコックピット、音声認識等の技術分野に関し、特に音声検索方法、装置、電子機器、コンピュータ読み取り可能な媒体及びコンピュータプログラムに関する。
端末通話シーンにおいて、ユーザの発音に欠陥がある場合(例えばl/r部分、前鼻音・後鼻音が区別されないなど)、音声に対して連絡先検索を行って、連絡先検索結果を得た後、名前のピンインの順だけで並べ替えると、検索結果の並べ替え結果が混乱する問題が発生しやすい。
音声検索方法及び装置、電子機器、コンピュータ読み取り可能な媒体及びコンピュータプログラム製品を提供する。
第1の形態によれば、音声データを取得することと、音声データを認識して、対応するテキストデータを取得することと、テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得することと、マッチングすべきデータセットに基づいて、混合マッチングデータセットを選別し、音声データに対応する検索結果セットを取得することとを含んでなる音声検索方法を提供する。
第2の形態によれば、音声データを取得するように配置される収集ユニットと、音声データを認識して、対応するテキストデータを取得するように配置される認識ユニットと、テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得するように配置されるマッチングユニットと、マッチングすべきデータセットに基づいて、混合マッチングデータセットを選別し、音声データに対応する検索結果セットを取得するように配置される処理ユニットとを含んでなる音声検索装置を提供する。
第3の形態によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、命令は、少なくとも1つのプロセッサによって実行されて、第1の形態のいずれかの実現形態に説明される方法を少なくとも1つのプロセッサに実行させる電子機器を提供する。
第4の形態によれば、第1の形態のいずれかの実現形態に説明される方法をコンピュータに実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
第5の形態によれば、プロセッサによって実行されると、第1の形態のいずれかの実現形態に説明される方法を実現するコンピュータプログラムを提供する。
本開示の実施例に係る音声検索方法及び装置は、まず、音声データを取得し、次に、音声データを認識して、対応するテキストデータを取得し、更に、テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得し、最後に、マッチングすべきデータセットに基づいて、混合マッチングデータセットを選別し、音声データに対応する検索結果セットを取得する。これにより、テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて取得された混合マッチングデータセットは、テキストデータとマッチングする混合マッチングデータを包括的に拡張し、更に混合マッチングデータに対して、マッチングすべきデータセットに適合であるより合理的な選別を行うことにより、取得された音声データ検索結果がより正確になり、ユーザが音声検索を行うエクスペリエンスが向上する。
理解できるように、この部分に記載の内容は本開示の実施例の肝心な又は重要な特徴を特定することを意図するものでもなく、本開示の範囲を限定するものではない。本開示のほかの特徴は、以下の明細書によって容易に理解されるであろう。
図面は、本手段をより良く理解することに用いられ、本開示を限定するものではない。
本開示に係る音声検索方法の一実施例のフローチャートである。 本開示に係る混合マッチングデータセットを取得する方法のフローチャートである。 本開示に係る音声データに対応する検索結果セットを取得する方法のフローチャートである。 本開示に係る検索データセットを取得する方法のフローチャートである。 本開示に係る音声検索装置の実施例の構造模式図である。 本開示の実施例の音声検索方法を実現するための電子機器のブロック図である。
以下、図面を参照しながら本開示の例示的な実施例を説明し、理解を助けるように本開示の実施例の様々な細部が含まれているが、単なる例示的なものであると考えられる。従って、当業者が理解できるように、本開示の範囲及び趣旨を逸脱せずに、ここで説明される実施例に対して種々の変更や修正を行うことができる。同様に、明確化及び簡明化のために、以下の説明では公知の機能及び構造についての説明は省略される。
図1は本開示に係る音声検索方法の一実施例のフロー200を示し、上記音声検索方法は、次のステップを含む。
ステップ101:音声データを取得する。
本実施例では、音声検索方法を実行する実行体は、音声データをリアルタイムに取得することができ、当該音声データは、ユーザがユーザ端末を介して送信されたものであるか、ユーザが音声パスワードを介して情報を検索して得られたものであり、音声データは、検索キーワードを含み、音声データを通じて、検索キーワードに関連する検索結果セットを検索することができ、検索結果セットには少なくとも1つの検索結果が含まれ、各検索結果は、いずれも音声データに関連する検索データである。例えば、ユーザが端末上の連絡先を検索する場合、音声データにおける検索キーワードは少なくとも1つの連絡先の情報を含んでもよく、当該情報は名前や電話番号などを含む。
本実施例では、音声検索方法を実行する実行体は、事前にユーザ端末からユーザの連絡先読み取り許可を取得し、端末の名簿から連絡先情報を読み取り、連絡先情報を事前設定されたデータベースに記憶することでき、更に、連絡先情報を充実させるために、名簿の連絡先ピンインライブラリを事前に作成することもでき、連絡先情報における連絡先に関連するピンインはいずれもピンインライブラリに記憶される。
ステップ102:音声データを認識して、対応するテキストデータを取得する。
本実施例では、音声検索方法を実行する実行体は、音声データを音声認識した後、音声データをテキストデータに変換することにより、音声データと対応するテキストデータを得る。
ステップ103:テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得する。
本実施例では、マッチングすべきデータセットは、事前設定された確定済みデータであり、実行体はマッチングすべきデータセットにおけるデータとテキストデータをマッチングし、ユーザ検索意図を確定する。
本実施例では、混合マッチングデータセットは、少なくとも1つのタイプの混合マッチングデータを含み、当該混合マッチングデータは測定すべきテキスト又は中間データ(測定すべきテキストをデータ変換して取得された様々な形式のデータ)とマッチングするデータである。例えば、混合マッチングデータは、ピンインやテキストや文字や記号などを含み、各混合マッチングデータは、いずれも測定すべきテキストとマッチングし、例えば、上記ピンインはテキストデータの発音と同じピンインであり、テキストデータからピンインデータへの変換はピンインツールライブラリを介して完了することができる。
音声検索方式が実行されるさまざまなシーンに応じて、マッチングすべきデータセットの内容が異なり、例えば、ユーザが端末における連絡先情報を検索するシーンの場合、マッチングすべきデータセットは、上記の、データベースに予め記憶されたすべての連絡先情報である。
テキスト形式のテキストデータを取得した後、該マッチングすべきデータセットのマッチングすべきデータをテキストデータとマッチングすることができ、マッチングすべきデータセットにおけるマッチングすべきデータがテキストデータと同じであるか、類似度が類似度のしきい値(たとえば、90%)より大きい場合、マッチングすべきデータセットがテキストデータとマッチングすると確定され、テキストデータ又はマッチングすべきデータセットにおける複数のデータは混合マッチングデータセットとしてまとめられる。
オプションとして、上記テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得することは、テキストデータに対してデータ強化を行い、テキストデータと対応する少なくとも1つの強化テキストデータを取得することと、少なくとも1つの強化テキストデータにおける各強化テキストデータとマッチングすべきデータセットにおける各マッチングすべきデータとマッチングし、マッチングに成功した強化テキストデータを混合マッチングデータセットに追加することとを含む。このオプションの形態では、テキストデータに対してデータ強化を行うことは、テキストデータと同じ発音を持つテキストデータを取得し、取得したテキストデータをテキストデータに追加することにより、テキストデータの量を増やすことであってもよい。
ステップ104:マッチングすべきデータセットに基づいて、混合マッチングデータセットを選別し、音声データに対応する検索結果セットを取得することを含む。
本実施例では、検索結果セットは、少なくとも1つの検索結果を含んでもよく、各検索結果はいずれも音声データと対応し、各検索結果はマッチングすべきデータセットと混合マッチングデータとをマッチングした後、選別された、音声データと対応する検索結果であってもよい。検索結果セットをユーザに対して表示する場合、ユーザは、表示された検索結果に応じて異なる操作を実行でき、例えば、音声データが検索連絡先を含む場合、検索結果は、少なくとも1つの、ユーザ音声と対応する連絡先情報を含み、当該連絡先情報は連絡先テキスト、連絡先ピンイン等を含み、ユーザは、連絡先情報を取得した後、当該連絡先に情報を送信することができる。
オプションとして、検索結果セットを取得した後、更に検索結果セットにおける各検索結果を並べ替えることもでき、マッチングすべきデータセットにおける各マッチングすべきデータは独自のシリアル番号を有するが、混合マッチングデータセットにおける各混合マッチングデータはマッチングすべきデータセットにおけるマッチングすべきデータと対応することができ、まず混合マッチングデータセットから各マッチングデータと対応するデータを選別し、次に各マッチングすべきデータのシリアル番号に基づいて、混合マッチングデータセットにおける各混合マッチングデータを並べ替え、これにより、音声データと対応する検索結果を迅速に確定することができる。
本開示の実施例に係る音声検索方法は、まず、音声データを取得し、次に、音声データを認識して、対応するテキストデータを取得し、更に、テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得し、最後に、マッチングすべきデータセットに基づいて、混合マッチングデータセットを選別し、音声データに対応する検索結果セットを取得する。これにより、テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて取得された混合マッチングデータセットは、テキストデータとマッチングする混合マッチングデータを包括的に拡張し、更に混合マッチングデータに対して、マッチングすべきデータセットに適合である合理的な選別を行うことにより、取得された音声データ検索結果はより正確になり、ユーザが音声検索を行うエクスペリエンスが向上する。
図2は本開示に係る混合マッチングデータセットを取得する方法のフローチャート200を示し、上記混合マッチングデータセットを取得する方法は、次のステップを含む。
ステップ201:テキストデータをデータ検索し、検索データセットを取得する。
本実施例では、テキストデータをデータ検索することは測定すべきテキストをデータ拡張する過程であり、例えば、テキストデータの検索ピンインデータを検索して取得し、検索された検索ピンインデータをテキストデータへ変換し、測定すべきテキストと同じ発音を持つ同音異義語の検索テキストデータを取得する。本実施例では、ピンインデータのテキストデータへの変換は、テキスト変換ツールを使用して実行することができ、テキスト変換ツールは一般的に使用されるツールであり、ここでは繰り返さない。
本実施例では、検索データセットは少なくとも1つの検索データを含み、各検索データは、いずれもテキストデータに関連するデータであり、検索データの表現形式は、様々であり、例えば、検索データは検索ピンインデータ又は検索テキストデータ等である。
本実施例のいくつかのオプションの実現形態では、上記テキストデータをデータ検索して、検索データセットを取得することは、テキストデータの測定すべきピンインデータを取得することと、測定すべきピンインデータと同じ発音を持つテキストデータを検索して、検索テキストデータを取得することと、テキストデータと検索テキストデータを組み合わせて、検索データセットを取得することとを含む。
本オプションの実現形態では、各中国語テキストはいずれも対応するピンインを持ち、テキストデータをピンインデータに変換してから、ピンインデータと同じ発音を持つテキストデータを検索することにより、テキストデータとはまったく異なる複数の検索テキストデータを取得することができ、複数の検索テキストデータを組み合わせて検索データセットを取得する。
本オプションの実現形態では、テキストデータと同じ発音を持つ検索テキストデータを検索し、検索データセットに追加することにより、検索データセットを充実させ、テキストデータの効果的なマッチングに信頼できる基盤を提供する。
ステップ202:検索データセットと事前設定されたマッチングすべきデータセットをマッチングし、混合マッチングデータセットを取得する。
本オプションの実現形態では、検索データセットにおける各検索データをマッチングすべきデータセットにおける各マッチングすべきデータと比較し、両者が完全に同じである場合、現在の完全に同じである検索データを混合マッチングデータセットに追加して、混合マッチングデータセットにおける1つの混合マッチングデータとする。
オプションとして、検索データセットにおける各検索データとマッチングすべきデータにおける各マッチングすべきデータに対して類似度の計算を行い、両者の類似度が類似度のしきい値よりも大きい場合、類似度が類似度のしきい値よりも大きい検索データを混合マッチングデータセットに追加し、混合マッチングデータセットにおける1つの混合マッチングデータとする。
本オプションの実現形態に係る混合マッチングデータセットを取得する方法は、テキストデータを検索し、検索データセットを取得することにより、テキストデータのデータ量を拡張し、ユーザ音声の発音に欠陥のあるテキストデータに対して事前にデータ補正を行うことができるため、ユーザ音声の包括的な検索結果を取得するために信頼できる基盤を提供する。
図3は本開示に係る音声データに対応する検索結果セットを取得する方法のフローチャート300を示し、上記音声データに対応する検索結果セットを取得する方法は、次のステップを含む。
ステップ301:混合マッチングデータセットのうち、検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得する。
本オプションの実現形態では、検索データセットにさまざまなタイプの検索データがある場合、より良い検索結果セットをユーザに提示するために、検索データセットにおけるさまざまなタイプの検索データには事前にさまざまな優先度を割り当てることができ、各タイプの検索データは1種の優先度レベルに対応し、例えば、検索データセットは検索ピンインデータ及び検索テキストデータを含み、検索テキストデータの優先度をレベル1に設定し、検索ピンインデータの優先度をレベル2に設定する。検索ピンインデータの優先度は検索テキストデータよりも低い。
更に、検索データセットにおける異なるタイプの検索データが混合マッチングデータセットにおける混合マッチングデータとマッチングする場合、検索データのタイプに応じて、マッチングして得られた混合マッチングデータを、検索データと対応する優先度に従って混合マッチングデータを分割し、優先度の異なる中間データセットを取得する。それぞれの中間データセットは1種類の検索データに対応し、例えば、検索テキストデータと対応する中間データセットの優先度レベルはレベル1であり、検索ピンインデータと対応する中間データセットの優先度はレベル2である。
本実施例のいくつかのオプションの実現形態では、上記検索データセットは、テキストデータと、優先度がテキストデータよりも低い検索テキストデータを含み、上記した、混合マッチングデータセットのうち、検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得することは、テキストデータと混合マッチングデータセットとをマッチングして、テキストデータとマッチングする測定すべき中間データセットを取得することと、混合マッチングデータセットにおける測定すべき中間データセットを削除して、検索テキストデータとマッチングする検索中間データセットを取得することであって、検索中間データセットの優先度が測定すべき中間データセットよりも低いこととを含む。
本オプションの実現形態では、検索データセットにはテキストデータ及び検索テキストデータの優先度の異なる2つのデータが含まれる場合、テキストデータと検索テキストデータに従って混合マッチングデータセットにおける混合マッチングデータを選別する。優先度の異なる2つの中間データセットの包括性が確保され、優先度の異なる2つの中間データセットがユーザに表示され、ユーザエクスペリエンスが向上する。
本実施例のいくつかのオプションの実現形態では、上記検索データセットは、優先度レベルが順次下がるテキストデータ、検索テキストデータ、修正テキストデータを含み、混合マッチングデータセットのうち、検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得することは、テキストデータと混合マッチングデータセットをマッチングして、テキストデータとマッチングする測定すべき中間データセットを取得することと、混合マッチングデータセットにおける測定すべき中間データを削除して、段階サブセットを取得することと、検索テキストデータと段階サブセットとをマッチングして、検索テキストデータとマッチングする検索中間データセットを取得することと、段階サブセットにおける検索中間データセットを削除して、修正テキストデータとマッチングする修正中間データセットを取得し、測定すべき中間データセット、検索中間データセット、修正中間データセットの優先度順位が順次下がることとを含む。
本オプションの実現形態では、検索データセットには、テキストデータ、検索テキストデータ、修正テキストデータの3つの優先度の異なるデータが含まれる場合、テキストデータ、検索テキストデータ、修正テキストデータに従って混合マッチングデータセットにおける混合マッチングデータを選別する。優先度の異なる3つの中間データセットの包括性が確保され、複数の優先度の中間データセットがユーザに表示され、ユーザエクスペリエンスが向上する。
ステップ302:マッチングすべきデータセットにおけるマッチングすべきデータの順で、各中間データセットを並べ替えて組み合わせ、音声データに対応する検索結果セットを取得する。
本実施例では、マッチングすべきデータセットにおけるマッチングすべきデータ又は各中間データセットの優先度順位に基づいて、すべての中間データセットを並べ替えてもよく、並べ替えた後のすべての中間データセットを組み合わせて、ユーザに表示可能な検索結果セットを取得する。
オプションとして、中間データセットはマッチングすべきデータと同じ又は対応するデータ(例えば、マッチングすべきデータの発音と同じもの)を有するので、各中間データセットを並べ替えることは、各中間データセットにおけるデータを並べ替えることであってもよい。
本実施例のいくつかのオプションの実現形態では、上記の、マッチングすべきデータセットにおけるマッチングすべきデータの順で、各中間データセットを並べ替えて組み合わせて、音声データに対応する検索結果セットを取得することは、各中間データセットにおける各中間データをピンインのアルファベットの順で並べ替えて、異なる並べ替えデータセットを取得することと、各並べ替えデータセットに対して、当該並べ替えデータセットに同じピンインを持つ複数の並べ替えデータがあると判断したことに応答して、複数の並べ替えデータを、マッチングすべきデータセットのうち、各並べ替えデータと対応するデータの順で並べ替えることと、各中間データセットの優先度レベルに応じて、すべての並べ替えデータセットを並べ替えて組み合わせて、音声データに対応する検索結果セットを取得することとを含む。
本オプションの実現形態では、まず、各中間データセットにおける各中間データをピンインのアルファベットの順で並べ替え、次に並べ替えた後の並べ替えデータを、マッチングすべきデータセットのうち、各並べ替えデータと対応するデータの順で並べ替える。ピンイン及びテキストがいずれも合理的である検索結果をユーザに表現され、ユーザが正確な選択をするのに便利である。
本実施例は、3つの異なる優先度レベルに従って連絡先並べ替え方法を最適化し、具体的な並べ替えは、1)中国語完全マッチングの程度、2)ピンイン完全マッチングの程度、3)誤り訂正の程度であり、ここで、中国語マッチングの程度を最高の優先度とし、例えば、検索キーワードは、中国語(数字なし)が完全マッチングする結果がある場合、最優先に表示し、次にピンイン(数字なし)完全マッチングの程度を考慮する。ピンインのマッチングと中国語のマッチングがいずれも不完全な場合、検索ピンインと結果ピンインの類似の程度に従って並べ替える。
本オプションの実現形態に係る、音声データと対応する検索結果を取得する方法は、混合マッチングデータセットのうち、検索データセットにおける検索データとマッチングする混合マッチングデータを選別し、これにより、混合マッチングデータセットの、マッチングすべきデータセットとのマッチング效果が異なるデータを階層的に表示することを便利にし、更に、マッチングすべきデータセットにおけるマッチングすべきデータの順で、中間データセットを並べ替えることにより、マッチングされた検索結果の効果的な並べ替えが保証され、ユーザが音声検索を行うエクスペリエンスが向上する。
図4は本開示に係る検索データセットを取得する方法の一実施例のフロー400を含み、上記検索データセットを取得する方法は、次のステップを含む。
ステップ401:テキストデータの測定すべきピンインデータを取得する。
本オプションの実現形態では、テキストデータをピンインデータに変換し、測定すべきピンインデータを取得する。テキストデータをピンインデータに変換するには、従来のピンイン変換ツールを使用することができ、ピンイン変換ツールについては本実施例で繰り返さない。
ステップ402:測定すべきピンインデータと同じ発音を持つテキストデータを確定して、検索テキストデータを取得する。
本オプションの実現形態では、測定すべきピンインデータはテキストデータのピンイン形式であり、測定すべきピンインデータを通じて、テキストデータと同じ発音を持つすべてのテキストデータを確定することができ、テキストデータと同じ発音を持つテキストデータは検索テキストデータである。
ステップ403:測定すべきピンインデータに対してデータ修正を行い、修正ピンインデータを取得する。
本オプションの実現形態では、測定すべきピンインデータに対してデータ修正を行うことは、測定すべきピンインデータにおける声母を別の声母に置き換えることを含み、例えば、測定すべきピンインデータにおける「l」を「r」に置き換え、又は測定すべきピンインデータにおける「r」を「l」に置き換える。測定すべきピンインデータに対してデータ修正を行うことは、測定すべきピンインデータにおける韻母を別の韻母に置き換えることを更に含み、例えば、測定すべきピンインデータにおける「ing」を「in」に置き換える。
ステップ404:修正ピンインデータと同じ発音を持つテキストデータを検索して、修正テキストデータを取得する。
本オプションの実現形態では、修正ピンインデータを取得した後、修正ピンインデータと同じ発音を持つテキストデータを確定する。得られたテキストデータは修正テキストデータである。
本オプションの実現形態では、修正テキストデータは検索テキストデータとは完全に異なるテキストデータであり、例えば、1つの検索テキストデータは、「張三」であり、発音がzhangsanであり、対応する修正テキストは「藏三」であってもよく、その発音がzangsanである。
ステップ405:検索テキストデータ、修正テキストデータ及びテキストデータを組み合わせて、検索データセットを取得する。
本実施例では、検索テキストデータ、修正テキストデータ及びテキストデータを組み合わせるとは、三者を融合して検索データセットに置くことを指す。検索データセットは、少なくとも1つの検索データを含み、各検索データは、検索テキストデータ、修正テキストデータ、又はテキストデータであってもよい。
本オプションの実現形態では、まず、テキストデータの測定すべきピンインデータに基づいて、検索テキストを取得し、これにより、テキストデータの同音異義語の検索データが保証され、更に、測定すべきピンインデータに対してデータ修正を行って、修正ピンインデータを取得し、修正ピンインデータから修正テキストデータを取得することにより、発音に欠陥のある人のテキストデータに対する効果的な補足が保証され、検索データセットの包括性と信頼性が保証される。
1つの例として、ユーザが連絡先情報を検索するシーンに対して、マッチングすべきデータセットは事前に保存された連絡先情報のデータセットであり、本開示の音声検索方法は、次のステップを含む。
第1のステップ:ユーザ端末からユーザの連絡先読み取り許可を取得した後、端末の名簿から連絡先情報を読み取る。
第2のステップ:音声データによって、ユーザが入力した目標連絡先P1を確定し、音声データを認識してテキストデータに変換し、テキストデータ及びマッチングすべきデータセットに従って、混合マッチングデータセットを取得する。本実施例では、混合マッチングデータセットを取得することは、テキストデータ(例えば張三)を、ピンインツールライブラリを介して測定すべきピンインデータ(zhangsan)として認識し、測定すべきピンインデータの発音が完全に同じである検索テキストデータを確定し、その後、事前設定された修正ピンインテーブル(例えば表1に示す)に従って、測定すべきピンインデータを修正して、例えば、zhanshan zhansan、 zhangshan、zhangshang等の修正ピンインデータを取得することができ、修正ピンインデータを修正テキストデータに変換し、テキストデータ、修正テキストデータを組み合わせて混合マッチングデータセットを取得することである。
第3のステップ:混合マッチングデータセットおける数字をフィルタリングし、数字をフィルタリングした後の混合マッチングデータセットMから、目標連絡先P1の中国語と完全マッチングする測定すべき中間データセットR1を選別する。
第4のステップ:混合マッチングデータセットMにおける測定すべき中間データP1を削除し、段階サブセットJ1を取得する。
第5のステップ:段階サブセットJ1から、目標連絡先P1の発音と完全マッチングするデータセット、つまり検索テキストデータと完全マッチングするデータセットを選別する。当該データセットに同形異音語が含まれている可能性があり、同時にピンインに対応する中国語も異なる可能性があるため、当該データセットにおいて再度並べ替える必要がある。ルールは次の通りである。
(1)当該データセットでは、中国語のピンインに従って第1のラウンドの並べ替えを行い、例えば、「張楽に電話する」である場合、zhangle¥zhangyueの2つの結果を取得でき、第1のラウンドでは、ピンインのアルファベット順に従ってピンインを並べ替えてテキストデータセットを取得する。
(2)第1のラウンド並べ替えの結果内では、ピンインが同じな結果グループ(例えば、張三、張散、張傘)は、マッチングすべきデータセットにおける各マッチングすべきデータの順に従って第2のラウンドの並べ替えを行い、最終的な検索中間データセットR2を取得し、例えば、zhangle¥zhangyueに対して、名簿には章楽、張楽、張悦という名前の連絡先があると、検索中間データセットR2は、張楽、章楽、張悦であり得る。
第6のステップ:段階サブセットJ1における検索中間データセットR2を削除して、修正テキストデータと完全マッチングするデータセットを取得し、修正テキストデータと完全マッチングするデータセットを、上記の検索中間データセットR2と同じ方法で再度並べ替え、修正中間データセットR3を取得する。上記の音声データがzhangsanであるようにする場合、名簿に張珊という名前の連絡先があると、張珊は修正中間データセットR3中に表示される。これは、彼女のピンインが音声入力の正しいピンインではないためである(正しいピンインはzhangsanである)。
第7のステップ:測定すべき中間データセットR1、検索中間データセットR2、修正中間データセットR3の順で並べ替え、並べ替えた後の測定すべき中間データセットR1、検索中間データセットR2、修正中間データセットR3をユーザに表示する。
本実施例は、3つの異なる優先度レベルに従って連絡先並べ替え方法を最適化し、具体的な並べ替えは、1)中国語完全マッチングの程度、2)ピンイン完全マッチングの程度、3)誤り訂正の程度である。ここで、中国語マッチングの程度を最高の優先度とし、例えば、検索キーワードは、中国語(数字なし)が完全マッチングする結果がある場合、最優先に表示し、次にピンイン(数字なし)完全マッチングの程度を考慮する。ピンインのマッチングと中国語のマッチングがいずれも不完全な場合、検索ピンインと結果ピンインの類似の程度に従って並べ替える。
図5を更に参照すると、上記各図に示す方法に対する実現として、本開示は音声検索装置の1つ実施例を提供し、当該装置の実施例は図1に示す方法の実施例と対応し、当該装置は具体的に様々な電子機器に適用することができる。
図5に示すように、本実施例に係る音声検索装置500は、収集ユニット501、認識ユニット502、マッチングユニット503、処理ユニット504を含む。上記収集ユニット501は、音声データを取得するように配置されてもよい。上記認識ユニット502は、音声データを認識して、対応するテキストデータを取得するように配置されてもよい。上記マッチングユニット503は、テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得するように配置されてもよい。上記処理ユニット504は、マッチングすべきデータセットに基づいて、混合マッチングデータセットを選別し、音声データに対応する検索結果セットを取得するように配置されてもよい。
本実施例では、音声検索装置500において、収集ユニット501、認識ユニット502、マッチングユニット503、処理ユニット504の具体的な処理及びそれらによってもたらされる技術的効果は、図1の対応する実施例のステップ101、ステップ102、ステップ103、ステップ104の関連する説明を参照することができ、ここでは繰り返さない。
本実施例のいくつかのオプションの実現方法では、上記マッチングユニット503は、検索モジュール(図示せず)と、マッチングモジュール(図示せず)とを含む。上記検索モジュールは、テキストデータをデータ検索して、検索データセットを取得するように配置されてもよい。上記マッチングモジュールは、検索データセットと事前設定されたマッチングすべきデータセットとをマッチングして、混合マッチングデータセットを取得するように配置されてもよい。
本実施例のいくつかのオプションの実現方法では、上記検索モジュールは、第1の取得サブモジュール(図示せず)と、第1の検索サブモジュール(図示せず)と、第1の組み合わせサブモジュール(図示せず)とを含む。上記第1の取得サブモジュールは、テキストデータの測定すべきピンインデータを取得することができる。上記第1の検索サブモジュールは、測定すべきピンインデータと同じ発音を持つテキストデータを検索して、検索テキストデータを取得するように配置されてもよい。上記第1の組み合わせサブモジュールは、テキストデータと検索テキストデータを組み合わせて、検索データセットを取得するように配置されてもよい。
本実施例のいくつかのオプションの実現形態では、上記検索モジュールは、第2の取得サブモジュール(図示せず)と、確定サブモジュール(図示せず)と、修正サブモジュール(図示せず)と、第2の検索サブモジュール(図示せず)と、第2の組み合わせサブモジュール(図示せず)とを含む。上記第2の取得サブモジュールは、テキストデータの測定すべきピンインデータを取得するように配置されてもよい。上記確定サブモジュールは、測定すべきピンインデータと同じ発音を持つ検索テキストデータを確定して、検索テキストデータを取得するように配置されてもよい。上記修正サブモジュールは、測定すべきピンインデータに対してデータ修正を行い、修正ピンインデータを取得するように配置されてもよい。上記第2の検索サブモジュールは、修正ピンインデータと同じ発音を持つテキストデータを検索して、修正テキストデータを取得するように配置されてもよい。上記第2の組み合わせサブモジュールは、テキストデータ、修正テキストデータ及び検索テキストデータを組み合わせて、検索データセットを取得するように配置されてもよい。
本実施例のいくつかのオプションの実現形態では、上記処理ユニット504は、選別モジュール(図示せず)と、並べ替えモジュール(図示せず)とを含む。上記選別モジュールは、混合マッチングデータセットのうち、検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得するように配置されてもよい。上記並べ替えモジュールは、マッチングすべきデータセットにおけるマッチングすべきデータの順で、各中間データセットを並べ替えて組み合わせて、音声データに対応する検索結果セットを取得するように配置されてもよい。
本実施例のいくつかのオプションの実現形態では、上記並べ替えモジュールは、第1の並べ替えサブモジュール(図示せず)と、第2の並べ替えサブモジュール(図示せず)と、取得サブモジュール(図示せず)とを含む。上記第1の並べ替えサブモジュールは、各中間データセットにおける各中間データをピンインのアルファベットの順で並べ替えて、異なる並べ替えデータセットを取得するように配置されてもよい。上記第2の並べ替えサブモジュールは、各並べ替えデータセットに対して、当該並べ替えデータセットに同じピンインを持つ複数の並べ替えデータがあると判断したことに応答して、複数の並べ替えデータを、マッチングすべきデータセットのうち、各並べ替えデータと対応するデータの順で並べ替えるように配置されてもよい。上記取得サブモジュールは、各中間データセットの優先度レベルに応じて、すべての並べ替えデータセットを並べ替えて組み合わせて、音声データに対応する検索結果セットを取得するように配置されてもよい。
本実施例のいくつかのオプションの実現形態では、上記テキストデータ及び優先度がテキストデータよりも低い検索テキストデータを含み、上記選別モジュールは、第1の測定すべきサブモジュール(図示せず)と、第1の削除サブモジュール(図示せず)とを含む。上記第1の測定すべきサブモジュールは、テキストデータと混合マッチングデータセットをマッチングし、テキストデータとマッチングする測定すべき中間データセットを取得するように配置されてもよい。上記第1の削除サブモジュールは、混合マッチングデータセットにおける測定すべき中間データセットを削除して、検索テキストデータとマッチングする検索中間データセットを取得し、検索中間データセットの優先度が測定すべき中間データセットよりも低いように配置されてもよい。
本実施例のいくつかのオプションの実現形態では、上記検索データセットは、優先度レベルが順次下がるテキストデータ、修正テキストデータ及び検索テキストデータを含む。上記選別モジュールは、第2の測定すべきサブモジュール(図示せず)と、第2の削除サブモジュール(図示せず)と、第1のマッチングサブモジュール(図示せず)と、第3の削除サブモジュール(図示せず)とを含む。上記第2の測定すべきサブモジュールは、テキストデータと混合マッチングデータセットとをマッチングして、テキストデータとマッチングする測定すべき中間データセットを取得するように配置されていてもよい。上記第2の削除サブモジュールは、混合マッチングデータセットにおける測定すべき中間データを削除して、段階サブセットを取得するように配置されてもよい。上記第1のマッチングサブモジュールは、検索テキストデータと段階サブセットとをマッチングして、検索テキストデータとマッチングする検索中間データセットを取得するように配置されてもよい。上記第3の削除サブモジュールは、段階サブセットにおける検索中間データセットを削除して、修正テキストデータとマッチングする修正中間データセットを取得し、測定すべき中間データセット、検索中間データセット、修正中間データセットの優先度順位が順次下がるように配置されてもよい。
本開示の実施例提供的音声検索装置は、まず、取得ユニット501が音声データを取得し、次に、認識ユニット502が音声データを認識して、対応するテキストデータを取得し、更に、マッチングユニット503がテキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得し、最後に、処理ユニット504がマッチングすべきデータセットに基づいて、混合マッチングデータセットを選別し、音声データに対応する検索結果セットを取得する。これにより、テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて取得された混合マッチングデータセットは、テキストデータとマッチングする混合マッチングデータを包括的に拡張し、更に混合マッチングデータに対して、マッチングすべきデータセットに適合であるより合理的な選別を行うことにより、取得された音声データ検索結果がより正確になり、ユーザが音声検索を行うエクスペリエンスが向上する。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品を更に提供する。
図6は、本開示の実施例を実施可能な例示的な電子機器600の模式ブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似の計算装置など、様々な形式の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は、単なる例であるが、本明細書の説明及び/又は要求される本開示の実現を制限することを意図しない。
図6に示すように、機器600は、読み取り専用(ROM)602に記憶されたコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット601を含む。RAM603には、機器600の操作に必要な様々なプログラム及びデータが記憶されてもよい。計算ユニット601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
機器600の複数の部材はI/Oインターフェース605に接続され、マウスやキーボード等の入力ユニット606と、たとえば、様々なタイプのディスプレイやスピーカー等の出力ユニット607と、磁気ディスクや光ディスク等の記憶ユニット608と、ネットワークカードやモデムや無線通信トランシーバ等の通信ユニット609とを含む。通信ユニット609は、機器600が例えばインターネットのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他の機器と情報/データを交換することを可能とする。
計算ユニット601は、処理能力及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されるものではない。計算ユニット601は、上述した様々な方法及び処理、例えば、音声検索方法を実行する。例えば、いくつかの実施例では、音声検索方法は、記憶ユニット608などの機械読み取り可能な媒体に物理的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部を、ROM 602及び/又は通信ユニット609を介して機器600にロード及び/又はインストールすることができる。コンピュータプログラムがRAM 603にロードされ、計算ユニット601によって実行されると、上述した音声検索方法の1つ又は複数のステップを実行することができる。オプションとして、別の実施例では、計算ユニット601は、他の任意の適切な方法で(例えば、ファームウェアによって)、音声検索方法を実行するように構成されてもよい。
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジック機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に送信することができる。
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能な音声検索装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施される。プログラムコードは機械で完全に実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行されかつ一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。
本開示の文脈において、機械読み取り可能な媒体はプログラムを含む又は記憶した有形媒体であってもよく、このプログラムは、命令実行システム、装置又は機器により使用されるか、又はそれらと組み合わせて使用されてもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、例えば電子的、磁気的、光学的、電磁的、赤外線、若しくは半導体のシステム、装置、若しくは機器、又は以上の任意の組み合わせを含むことができるが、これらに限られない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラム可読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含む。
ユーザと対話できるように、ここで記載されるシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置(例えば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、そして、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
ここで記載されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はネットワークブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのネットワークブラウザーを介してここで記載されるシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介してインタラクションする。クライアント及びサーバの関係は、対応するコンピュータで実行されて互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
本開示の技術的解決策では、関連するユーザの個人情報の取得、保存及び適用は、関連する法律及び規制に準拠し、公序良俗に違反していない。
なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。例えば、本開示に記載の各ステップは、本開示で開示された技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順次で実施してもよく、本明細書ではそれについて限定しない。
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者にとって自明なように、設計要件及び他の要因に従って様々な修正、組み合わせ、サブコンビネーション及び置換を行うことができる。本開示の精神及び原則の範囲内で行われた修正、同等の置き換え及び改善等は、本開示の保護範囲に含まれるものとする。
なお、本願の出願当初の開示事項を維持するために、本願の出願当初の請求項1~13の記載内容を以下に追加する。
(請求項1)
音声データを取得することと、
前記音声データを認識して、対応するテキストデータを取得することと、
前記テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得することと、
前記マッチングすべきデータセットに基づいて、前記混合マッチングデータセットを選別し、前記音声データに対応する検索結果セットを取得することと
を含んでなる音声検索方法。
(請求項2)
前記テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得することは、
前記テキストデータをデータ検索して、検索データセットを取得することと、
前記検索データセットと事前設定されたマッチングすべきデータセットとをマッチングして、混合マッチングデータセットを取得することと
を含む、請求項1に記載の音声検索方法。
(請求項3)
前記テキストデータをデータ検索して、検索データセットを取得することは、
前記テキストデータの測定すべきピンインデータを取得することと、
前記測定すべきピンインデータと同じ発音を持つテキストデータを検索して、検索テキストデータを取得することと、
前記テキストデータ及び前記検索テキストデータを組み合わせて、検索データセットを取得することと
を含む、請求項2に記載の音声検索方法。
(請求項4)
前記テキストデータをデータ検索して、検索データセットを取得することは、
前記テキストデータの測定すべきピンインデータを取得することと、
前記測定すべきピンインデータと同じ発音を持つ検索テキストデータを確定して、検索テキストデータを取得することと、
前記測定すべきピンインデータに対してデータ修正を行い、修正ピンインデータを取得することと、
前記修正ピンインデータと同じ発音を持つテキストデータを検索して、修正テキストデータを取得することと、
前記テキストデータ、前記修正テキストデータ及び前記検索テキストデータを組み合わせて、検索データセットを取得することと
を含む、請求項2に記載の音声検索方法。
(請求項5)
前記マッチングすべきデータセットに基づいて、前記混合マッチングデータセットを選別し、前記音声データに対応する検索結果セットを取得することは、
前記混合マッチングデータセットのうち、前記検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得することと、
前記マッチングすべきデータセットにおけるマッチングすべきデータの順で、各中間データセットを並べ替えて組み合わせて、前記音声データに対応する検索結果セットを取得することと
を含む、請求項2~4のいずれか一項に記載の音声検索方法。
(請求項6)
前記マッチングすべきデータセットにおけるマッチングすべきデータの順で、各中間データセットを並べ替えて組み合わせて、前記音声データに対応する検索結果セットを取得することは、
各中間データセットにおける各中間データをピンインのアルファベットの順で並べ替えて、異なる並べ替えデータセットを取得することと、
各並べ替えデータセットに対して、当該並べ替えデータセットに同じピンインを持つ複数の並べ替えデータがあると判断したことに応答して、前記複数の並べ替えデータを、前記マッチングすべきデータセットのうち、各並べ替えデータと対応するデータの順で並べ替えることと、
各中間データセットの優先度レベルに応じて、すべての並べ替えデータセットを並べ替えて組み合わせて、前記音声データに対応する検索結果セットを取得することと
を含む、請求項5に記載の音声検索方法。
(請求項7)
前記検索データセットは、テキストデータ及び前記テキストデータよりも優先度が低い検索テキストデータを含み、
前記混合マッチングデータセットのうち、前記検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得することは、
前記テキストデータと前記混合マッチングデータセットをマッチングして、前記テキストデータとマッチングする測定すべき中間データセットを取得することと、
前記混合マッチングデータセットにおける測定すべき中間データセットを削除して、前記検索テキストデータとマッチングする検索中間データセットを取得することであって、前記検索中間データセットの優先度は前記測定すべき中間データセットよりも低いことと
を含む、請求項5に記載の音声検索方法。
(請求項8)
前記検索データセットは、優先度レベルが順次下がる、テキストデータと検索テキストデータと修正テキストデータとを含み、
前記混合マッチングデータセットのうち、前記検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得することは、
前記テキストデータと前記混合マッチングデータセットをマッチングして、前記テキストデータとマッチングする測定すべき中間データセットを取得することと、
前記混合マッチングデータセットにおける測定すべき中間データを削除して、段階サブセットを取得することと、
前記検索テキストデータと前記段階サブセットとをマッチングして、前記検索テキストデータとマッチングする検索中間データセットを取得することと、
前記段階サブセットにおける検索中間データセットを削除して、前記修正テキストデータとマッチングする修正中間データセットを取得し、前記測定すべき中間データセットと前記検索中間データセットと前記修正中間データセットとの優先度順位が順次下がるものであることと
を含む、請求項5に記載の音声検索方法。
(請求項9)
音声データを取得するように配置される収集ユニットと、
前記音声データを認識して、対応するテキストデータを取得するように配置される認識ユニットと、
前記テキストデータ及び事前設定されたマッチングすべきデータセットに基づいて、混合マッチングデータセットを取得するように配置されるマッチングユニットと、
前記マッチングすべきデータセットに基づいて、前記混合マッチングデータセットを選別し、前記音声データに対応する検索結果セットを取得するように配置される処理ユニットと
を含んでなる音声検索装置。
(請求項10)
前記マッチングユニットは、
前記テキストデータをデータ検索して、検索データセットを取得するように配置される検索モジュールと、
前記検索データセットと事前設定されたマッチングすべきデータセットとをマッチングして、混合マッチングデータセットを取得するように配置されるマッチングモジュールと
を含む、請求項9に記載の音声検索装置。
(請求項11)
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと
を含んでなり、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記命令は、前記少なくとも1つのプロセッサによって実行されて、請求項1~8のいずれか一項に記載の方法を前記少なくとも1つのプロセッサに実行させることを特徴とする、電子機器。
(請求項12)
請求項1~8のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されていることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
(請求項13)
プロセッサによって実行されると、請求項1~8のいずれか一項に記載の方法を実現するコンピュータプログラム。

Claims (10)

  1. 音声データを取得することと、
    前記音声データを認識して、対応するテキストデータを取得することと、
    前記テキストデータをデータ検索して、検索データセットを取得することと、
    前記検索データセットと事前設定されたマッチングすべきデータセットとをマッチングして、混合マッチングデータセットを取得することと、
    前記混合マッチングデータセットのうち、前記検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得することと、
    前記マッチングすべきデータセットにおけるマッチングすべきデータの順で、各中間データセットを並べ替えて組み合わせて、前記音声データに対応する検索結果セットを取得することと
    を含んでなる音声検索方法。
  2. 前記テキストデータをデータ検索して、検索データセットを取得することは、
    前記テキストデータの測定すべきピンインデータを取得することと、
    前記測定すべきピンインデータと同じ発音を持つテキストデータを検索して、検索テキストデータを取得することと、
    前記テキストデータ及び前記検索テキストデータを組み合わせて、検索データセットを取得することと
    を含む、請求項に記載の音声検索方法。
  3. 前記テキストデータをデータ検索して、検索データセットを取得することは、
    前記テキストデータの測定すべきピンインデータを取得することと、
    前記測定すべきピンインデータと同じ発音を持つ検索テキストデータを確定して、検索テキストデータを取得することと、
    前記測定すべきピンインデータに対してデータ修正を行い、修正ピンインデータを取得することと、
    前記修正ピンインデータと同じ発音を持つテキストデータを検索して、修正テキストデータを取得することと、
    前記テキストデータ、前記修正テキストデータ及び前記検索テキストデータを組み合わせて、検索データセットを取得することと
    を含む、請求項に記載の音声検索方法。
  4. 前記マッチングすべきデータセットにおけるマッチングすべきデータの順で、各中間データセットを並べ替えて組み合わせて、前記音声データに対応する検索結果セットを取得することは、
    各中間データセットにおける各中間データをピンインのアルファベットの順で並べ替えて、異なる並べ替えデータセットを取得することと、
    各並べ替えデータセットに対して、当該並べ替えデータセットに同じピンインを持つ複数の並べ替えデータがあると判断したことに応答して、前記複数の並べ替えデータを、前記マッチングすべきデータセットのうち、各並べ替えデータと対応するデータの順で並べ替えることと、
    各中間データセットの優先度レベルに応じて、すべての並べ替えデータセットを並べ替えて組み合わせて、前記音声データに対応する検索結果セットを取得することと
    を含む、請求項に記載の音声検索方法。
  5. 前記検索データセットは、テキストデータ及び前記テキストデータよりも優先度が低い検索テキストデータを含み、
    前記混合マッチングデータセットのうち、前記検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得することは、
    前記テキストデータと前記混合マッチングデータセットをマッチングして、前記テキストデータとマッチングする測定すべき中間データセットを取得することと、
    前記混合マッチングデータセットにおける測定すべき中間データセットを削除して、前記検索テキストデータとマッチングする検索中間データセットを取得することであって、前記検索中間データセットの優先度は前記測定すべき中間データセットよりも低いことと
    を含む、請求項に記載の音声検索方法。
  6. 前記検索データセットは、優先度レベルが順次下がる、テキストデータと検索テキストデータと修正テキストデータとを含み、
    前記混合マッチングデータセットのうち、前記検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得することは、
    前記テキストデータと前記混合マッチングデータセットをマッチングして、前記テキストデータとマッチングする測定すべき中間データセットを取得することと、
    前記混合マッチングデータセットにおける測定すべき中間データを削除して、段階サブセットを取得することと、
    前記検索テキストデータと前記段階サブセットとをマッチングして、前記検索テキストデータとマッチングする検索中間データセットを取得することと、
    前記段階サブセットにおける検索中間データセットを削除して、前記修正テキストデータとマッチングする修正中間データセットを取得し、前記測定すべき中間データセットと前記検索中間データセットと前記修正中間データセットとの優先度順位が順次下がるものであることと
    を含む、請求項に記載の音声検索方法。
  7. 音声データを取得するように配置される収集ユニットと、
    前記音声データを認識して、対応するテキストデータを取得するように配置される認識ユニットと、
    前記テキストデータをデータ検索して、検索データセットを取得し、前記検索データセットと事前設定されたマッチングすべきデータセットとをマッチングして、混合マッチングデータセットを取得するように配置されるマッチングユニットと、
    前記混合マッチングデータセットのうち、前記検索データセット内の異なる優先度の検索データとマッチングする混合マッチングデータを選別して、優先度の異なる中間データセットを取得し、前記マッチングすべきデータセットにおけるマッチングすべきデータの順で、各中間データセットを並べ替えて組み合わせて、前記音声データに対応する検索結果セットを取得するように配置される処理ユニットと
    を含んでなる音声検索装置。
  8. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと
    を含んでなり、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記命令は、前記少なくとも1つのプロセッサによって実行されて、請求項1~のいずれか一項に記載の方法を前記少なくとも1つのプロセッサに実行させることを特徴とする、電子機器。
  9. 請求項1~のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されていることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
  10. プロセッサによって実行されると、請求項1~のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2022056210A 2021-05-27 2022-03-30 音声検索方法、装置、電子機器、コンピュータ読み取り可能な媒体及びコンピュータプログラム Active JP7403571B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110586407.7A CN113326279A (zh) 2021-05-27 2021-05-27 语音搜索方法和装置、电子设备、计算机可读介质
CN202110586407.7 2021-05-27

Publications (2)

Publication Number Publication Date
JP2022103161A JP2022103161A (ja) 2022-07-07
JP7403571B2 true JP7403571B2 (ja) 2023-12-22

Family

ID=77421909

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022056210A Active JP7403571B2 (ja) 2021-05-27 2022-03-30 音声検索方法、装置、電子機器、コンピュータ読み取り可能な媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220269722A1 (ja)
EP (1) EP4020951A3 (ja)
JP (1) JP7403571B2 (ja)
KR (1) KR20220054753A (ja)
CN (1) CN113326279A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536764A (zh) * 2021-09-07 2021-10-22 湖南双菱电子科技有限公司 口令信息匹配方法、计算机设备和计算机可读存储介质
KR102708215B1 (ko) * 2023-11-21 2024-09-19 길준석 기술 정보를 연계, 가공 및 융합하여 기술 조합 정보를 제공하는 시스템 및 이의 제어 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271117A (ja) 2008-04-30 2009-11-19 Mitsubishi Electric Corp 音声検索装置および音声検索方法
US20140379335A1 (en) 2013-06-21 2014-12-25 Tencent Technology (Shenzhen) Company Limited Method and device of matching speech input to text
JP2018536905A (ja) 2015-11-06 2018-12-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 発話認識方法及び装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5008248B2 (ja) * 2003-06-26 2012-08-22 シャープ株式会社 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
US20070074254A1 (en) * 2005-09-27 2007-03-29 Microsoft Corporation Locating content in a television environment
US9104244B2 (en) * 2009-06-05 2015-08-11 Yahoo! Inc. All-in-one Chinese character input method
WO2011061556A1 (en) * 2009-11-20 2011-05-26 Kim Mo Intelligent search system
US8498864B1 (en) * 2012-09-27 2013-07-30 Google Inc. Methods and systems for predicting a text
CN103870000B (zh) * 2012-12-11 2018-12-14 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
US20150057994A1 (en) * 2013-08-20 2015-02-26 Eric Hong Fang Unified Mobile Learning Platform
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
CN107707745A (zh) * 2017-09-25 2018-02-16 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN111198936B (zh) * 2018-11-20 2023-09-15 北京嘀嘀无限科技发展有限公司 一种语音搜索方法、装置、电子设备及存储介质
CN110310634A (zh) * 2019-06-19 2019-10-08 广州小鹏汽车科技有限公司 车载语音推送方法、终端、服务器以及推送系统
CN110428822B (zh) * 2019-08-05 2022-05-03 重庆电子工程职业学院 一种语音识别纠错方法及人机对话系统
CN110880316A (zh) * 2019-10-16 2020-03-13 苏宁云计算有限公司 一种音频的输出方法和系统
CN112231440A (zh) * 2020-10-09 2021-01-15 安徽讯呼信息科技有限公司 一种基于人工智能的语音搜索方法
CN112767925B (zh) * 2020-12-24 2023-02-17 贝壳技术有限公司 语音信息识别方法及装置
CN112818089B (zh) * 2021-02-23 2022-06-03 掌阅科技股份有限公司 文本注音方法、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271117A (ja) 2008-04-30 2009-11-19 Mitsubishi Electric Corp 音声検索装置および音声検索方法
US20140379335A1 (en) 2013-06-21 2014-12-25 Tencent Technology (Shenzhen) Company Limited Method and device of matching speech input to text
JP2018536905A (ja) 2015-11-06 2018-12-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 発話認識方法及び装置

Also Published As

Publication number Publication date
JP2022103161A (ja) 2022-07-07
CN113326279A (zh) 2021-08-31
EP4020951A2 (en) 2022-06-29
EP4020951A3 (en) 2022-11-02
US20220269722A1 (en) 2022-08-25
KR20220054753A (ko) 2022-05-03

Similar Documents

Publication Publication Date Title
JP7403571B2 (ja) 音声検索方法、装置、電子機器、コンピュータ読み取り可能な媒体及びコンピュータプログラム
US10185772B2 (en) Query selection method and system
RU2589873C2 (ru) Способ и устройство обработки ввода
CN114610845B (zh) 基于多系统的智能问答方法、装置和设备
WO2023024975A1 (zh) 文本处理方法、装置和电子设备
WO2016095645A1 (zh) 笔画输入方法、装置和系统
CN111198936B (zh) 一种语音搜索方法、装置、电子设备及存储介质
CN112506864B (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN114238689A (zh) 视频生成方法、装置、电子设备、存储介质和程序产品
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN117539990A (zh) 一种问题处理方法、装置、电子设备和存储介质
CN114816578A (zh) 基于配置表的程序配置文件生成方法、装置及设备
CN117971698A (zh) 测试用例生成方法、装置、电子设备和存储介质
CN112527819B (zh) 通讯录信息检索方法、装置、电子设备及存储介质
CN111488464B (zh) 实体属性处理方法、装置、设备及介质
US11244000B2 (en) Information processing apparatus and non-transitory computer readable medium storing program for creating index for document retrieval
CN115328898A (zh) 一种数据处理方法、装置、电子设备及介质
CN111309884A (zh) 机器人对话方法、装置、介质及电子设备
CN112560466A (zh) 链接实体关联方法、装置、电子设备和存储介质
CN117851575B (zh) 一种大语言模型问答优化方法、装置、电子设备及存储介质
CN118313383B (zh) 基于语言模型的命名实体识别方法及装置
CN113553832B (zh) 文字处理方法和装置、电子设备以及计算机可读存储介质
CN114398321A (zh) 一种展示文件夹的方法、装置及电子设备
CN111078824A (zh) 一种减少Lucene无字典n-gram切词占用存储空间的方法
CN114625833A (zh) 语音搜索方法、搜索装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231212

R150 Certificate of patent or registration of utility model

Ref document number: 7403571

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150