JP6309539B2 - 音声入力を実現する方法および装置 - Google Patents

音声入力を実現する方法および装置 Download PDF

Info

Publication number
JP6309539B2
JP6309539B2 JP2015549964A JP2015549964A JP6309539B2 JP 6309539 B2 JP6309539 B2 JP 6309539B2 JP 2015549964 A JP2015549964 A JP 2015549964A JP 2015549964 A JP2015549964 A JP 2015549964A JP 6309539 B2 JP6309539 B2 JP 6309539B2
Authority
JP
Japan
Prior art keywords
participle
input
information
character string
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015549964A
Other languages
English (en)
Other versions
JP2016505893A (ja
JP2016505893A5 (ja
Inventor
ヤンヤン ルウ,
ヤンヤン ルウ,
レイ ジャ,
レイ ジャ,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2016505893A publication Critical patent/JP2016505893A/ja
Publication of JP2016505893A5 publication Critical patent/JP2016505893A5/ja
Application granted granted Critical
Publication of JP6309539B2 publication Critical patent/JP6309539B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本発明は、インターネット技術分野に関し、特に音声入力を実現する技術に関する。
音声認識技術の発展に従って、音声入力を応用した分野はますます増加している。
しかしながら多くの場合、音声入力には依然として間違いが多く、例えば同音異義語に対しての認識および確定が不正確である等、音声入力の確度が低く、ユーザエクスペリエンスに影響を及ぼしている。
本発明の目的は、音声入力を実現する方法および装置を提供することである。
本発明の一態様によれば、ネットワーク装置端末において音声入力を実現する方法であって、
音声入力を獲得するステップaと、
音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定するステップbと、
前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得するステップcと、
前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信するステップdとを含む方法を提供する。
本発明の別の様態によれば、ユーザ装置端末において音声入力の実現を補助する方法であって、
ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得するステップAと、
前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供するステップBと、
を含む方法をさらに提供する。
本発明のさらに別の様態によれば、音声入力を実現するネットワーク装置であって、
音声入力情報を獲得する入力獲得ユニットと、
音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定する配列確定ユニットと、
前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得する確度確定ユニットと、
前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する送信ユニットと、
を含むネットワーク装置をさらに提供する。
本発明のさらに別の様態によれば、音声入力の実現を補助するユーザ装置であって、
ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得する配列獲得ユニットと、
前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する提供ユニットと、
を含むユーザ装置をさらに提供する。
本発明のさらに別の様態によれば、上述のような前記ネットワーク装置および上述のような前記ユーザ装置を含む音声入力を実現するシステムをさらに提供する。
従来技術に比べ、本発明は、ネットワーク装置端末において、音声認識モデルに基づいて、音声入力情報に対応する入力文字列を確定し、前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、これにより前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信し、ユーザ装置端末は、前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。これにより、入力文字列中の分詞の出現確率情報に基づいて前記分詞の確度情報を獲得することで、音声入力の確度およびフレキシビリティを高め、前記入力見出し語とユーザの入力ニーズをマッチングさせ、入力のフレキシビリティおよびカスタマイズ性を高め、さらに入力法の入力効率を高め、ユーザエクスペリエンスを向上させることが可能となる。
さらに、本発明はネットワーク装置端末において前記ユーザ装置が送信した前記少なくとも1つの分詞に関する選択肢のアクセス要求を獲得し、前記アクセス要求に基づいて、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定し、これにより前記1つまたは複数の選択肢を前記ユーザ装置に送信し、ユーザ装置端末において、前記1つまたは複数の選択肢のうち少なくとも1つを前記ユーザに提供してもよい。さらには、ネットワーク装置端末において前記少なくとも1つの分詞の文脈情報を結合し、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定してもよい。さらには、ユーザ装置端末において、ユーザの前記1つまたは複数の選択肢のうち少なくとも1つに対する選択操作に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得してもよい。これにより、ユーザに多くの選択肢が提供され、音声入力中の間違いを修正するのに都合がよくなることで、音声入力の確度およびフレキシビリティを高め、前記入力見出し語とユーザの入力ニーズをマッチングさせ、入力のフレキシビリティおよびカスタマイズ性を高め、さらに入力法の入力効率を高め、ユーザエクスペリエンスを向上させることが可能となる。
さらに、本発明はネットワーク装置端末において前記分詞の前記入力文字列における条件付き確率を確定し、前記条件付き確率を前記分詞の出現確率情報とし、前記条件付き確率に基づいて前記分詞の確度情報を確定してもよい。さらには、前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定してもよい。これにより文字列全体を結合することで、音声入力の確度およびフレキシビリティを高め、前記入力見出し語とユーザの入力ニーズをマッチングさせ、入力のフレキシビリティおよびカスタマイズ性を高め、さらに入力法の入力効率を高め、ユーザエクスペリエンスを向上させることが可能となる。
さらに、本発明はネットワーク装置端末において音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報を結合し、前記音声入力情報に対応する入力文字列を確定してもよい。これにより文脈情報を結合することで、音声入力の確度およびフレキシビリティを高め、前記入力見出し語とユーザの入力ニーズをマッチングさせ、入力のフレキシビリティおよびカスタマイズ性を高め、さらに入力法の入力効率を高め、ユーザエクスペリエンスを向上させることが可能となる。
以下の図面による非制限的な実施例を参照して詳細な説明を行うことにより、本発明のその他の特徴、目的および利点はより明らかになる。
図1は、本発明の1つの様態による音声入力を実現するネットワーク装置およびユーザ装置の概略図である。 図2は、本発明の1つの好適な実施例による音声入力を実現するネットワーク装置およびユーザ装置の概略図である。 図3は、本発明の別の様態によるネットワーク装置およびユーザ装置の連係により音声入力を実現する方法のフローチャートである。 図4は、本発明の1つの好適な実施例によるネットワーク装置およびユーザ装置の連係により音声入力を実現する方法のフローチャートである。 図面において、同一または類似の図面符号は、同一または類似の部材を示す。
以下、図面と共に本発明をより詳細に説明する。
図1に本発明の1つの様態による音声入力を実現するネットワーク装置およびユーザ装置の概略図を示す。そのうち、ネットワーク装置1は入力獲得ユニット11、配列確定ユニット12、確度確定ユニット13、送信ユニット14を含み、ユーザ装置2は配列獲得ユニット21、提供ユニット22を含んでおり、ネットワーク装置1およびユーザ装置2の各装置間は互いに連係して、音声入力を実現する。
具体的には、ネットワーク装置1の入力獲得ユニット11が音声入力情報を獲得し、配列確定ユニット12が音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定し、確度確定ユニット13が前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、送信ユニット14が前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。それに対応して、ユーザ装置2の配列獲得ユニット21が、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得し、提供ユニット22が前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。
そのうち、前記ネットワーク装置は、コンピュータ、単独のネットワークサーバ、複数のネットワークサーバ、または複数のサーバで構成されたクラウドを含むが、これに限定されるものではない。ここで、クラウドはクラウドコンピューティング(Cloud Computing)による多数のコンピュータまたはネットワークサーバで構成され、そのうち、クラウドコンピューティングは分散コンピューティングの一種であり、疎結合のコンピュータ群で形成された仮想スーパーコンピュータである。
前記ユーザ装置は、キーボード、リモコン、タッチパッド、または音声制御装置によって、ユーザとマンマシンインタラクションを行うことが可能である電子機器、例えば、コンピュータ、スマートフォン、PDA(携帯情報端末)、ゲーム機、またはIPTV(インターネットプロトコルテレビ)等のうちいずれか1つを含むが、これに限定されるものではない。
前記ネットワークは、インターネット、広域ネットワーク、都市規模ネットワーク、ローカルエリアネットワーク、VPNネットワーク(バーチャルプライベートネットワーク)、無線アドホックネットワーク(Ad Hocネットワーク)等を含むが、これに限定されるものではない。
当業者は、その他の音声入力実現可能なネットワーク装置およびユーザ装置を本発明に同様に適用したものも、本発明の保護範囲内に含まれ、引用を以てここに含まれるものとすることを理解されたい。
上述の各ユニット間は継続して作動している。ここで当業者は、「継続して」とは、ネットワーク装置が音声入力情報の獲得を停止するまで、上述の各ユニットがそれぞれリアルタイムにあるいは、設定されたまたはリアルタイムに調整された作動モード要求に従って音声入力情報の獲得、入力文字列の確定、確度情報の獲得、入力文字列および分詞の確度情報の送信および受信、入力文字列の提供等を行うことを意味することを理解されたい。
ネットワーク装置1の入力獲得ユニット11は音声入力情報を獲得する。具体的には、入力獲得ユニット11は各種通信プロトコル(Communication Protocol)に基づいて、各種データ伝送インターフェースを介して第三者の音声入力情報データ等とインタラクションを行い、音声入力情報を獲得する。あるいは、前記入力獲得ユニット11はユーザが入力した音声入力情報をリアルタイムに獲得する、あるいは、前記ユーザ装置とインタラクションを行い、ユーザがリアルタイムに入力した音声入力情報を獲得する等でもよい。そのうち、前記音声入力情報は文字、単語、短文、長文等を含むが、これに限定されるものではない。
配列確定ユニット12は、音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定する。
具体的には、前記配列確定ユニット12は、予め設定されたまたは学習にて得られた音声認識モデルに基づいて、例えば音声入力情報に分割を行うことにより、前記音声入力情報に対応する1つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレート等にマッチングさせることにより、前記音節に対応する1つまたは複数の分詞または候補分詞を獲得し、順次前記入力音節にマッチングを行うことにより、前記音声入力情報に対応する入力文字列を確定する。
そのうち、前記入力文字列には前記音声入力情報に対応する複数の分詞または候補分詞を含む。
ここで、前記音声認識モデルは汎用の音声認識モデル、あるいは現在のユーザのみと対応する特定音声認識モデルを含むが、これに限定されるものではなく、前記音声認識モデルは音声認識訓練により得られる。例えば、前記音声入力情報に対応するセンテンス「我▲だい▼(帯)▲にい▼(弥)去▲じん▼(錦)州」であれば、配列確定ユニット12は前記音声入力情報に対して分割を行うことにより、前記音声入力情報に対応する複数の分詞または候補分詞を獲得する。例えば、我、帯、弥、去、錦州であり、そのうち、「帯」の位置には「代、待、呆(10%)」、「錦州」の位置には「金州、晋州」等のような他の候補分詞もあり得る。
確度確定ユニット13は、前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得する。具体的には、前記確度確定ユニット13は、機械学習によって獲得した、あるいは対応する出現確率情報データベース等に照会することによって獲得した情報に基づいて、前記入力文字列中の分詞が対応する出現確率情報を確定し、前記出現確率情報に基づいて、前記出現確率情報を直接前記分詞の確度情報とする方式により、前記分詞の確度情報を獲得する。あるいは例えば前記分詞の前記入力文字列における文脈情報または前記分詞の品詞情報等に基づいて、前記出現確率情報に対して処理を行って、前記分詞の確度情報を獲得する。
例えば、上記の例では、確度確定ユニット13は出現確率情報データベースとのインタラクションによって、前記音声入力情報に対応するセンテンス「我帯弥去錦州」中の分詞が対応する出現確率情報(括弧内に示す)、我(90%)、帯(40%)、弥(90%)、去(98%)、錦州(40%)を獲得し、そのうち、「帯」の位置には「代(30%)、待(20%)、呆(10%)」、「錦州」の位置には「金州(30%)、晋州(30%)」等のような他の候補分詞もあり得る。前記確度確定ユニット13は、前記出現確率情報を直接対応させて前記分詞の確度情報とする。すなわち、例えば「我」の確度情報は90%である。
送信ユニット14は、前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。具体的には、前記送信ユニット14は、前記確度確定ユニット13から獲得した1つまたは複数の分詞または候補分詞で形成された入力文字列、および前記分詞の確度情報を、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。
それに対応して、ユーザ装置2の配列獲得ユニット21は、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得する。具体的には、前記配列獲得ユニット21は、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記ネットワーク装置から1つまたは複数の分詞または候補分詞で形成された前記音声入力情報に対応する入力文字列、および前記分詞の確度情報を受信する。
提供ユニット22は、前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。具体的には、前記提供ユニット22は、前記配列獲得ユニット21で獲得した入力文字列、および前記入力文字列中の分詞の確度情報に基づいて、同一の入力音節に対応する前記確度情報の最も高い分詞に組み合わせることにより、前記ユーザに提供する入力文字列を生成する。あるいは、同一の入力音節に対応するすべての分詞または候補分詞を確度情報に従って高いものから低いものへとソートを行った後、前記ユーザに供給する入力文字列を生成する。
そのうち、前記入力文字列にはすべてのマッチングする分詞を含む。前記ユーザとインタラクションを行うことによって、各種通信プロトコルに基づいて、ユーザの対応するユーザ装置が提供するアプリケーションプログラミングインターフェース(API)等の方式を介して、前記入力文字列を前記ユーザに提供する。ここで、前記ユーザは前記音声入力情報の提供に対応するユーザ、あるいは前記音声入力情報を受信する指定されたユーザ等を含むが、これに限定されるものではない。
好ましくは、前記確度確定ユニット13は、前記分詞の前記入力文字列における条件付き確率を確定して、前記分詞の出現確率情報とし、出現確率閾値に基づいて、前記分詞の出現確率情報によって、前記分詞の確度情報を確定してもよい。具体的には、前記確度確定ユニット13は、前記分詞の前記入力文字列における条件付き確率を直接獲得してもよい。あるいは、まず前記入力文字列が出現する確率P(B)を獲得し、その後前記入力文字列に前記分詞が含まれる確率P(AB)を獲得することにより、前記入力文字列に前記分詞が出現する条件付き確率P(A|B)を算出し、前記条件付き確率P(A|B)を前記分詞の出現確率情報としてもよい。
前記確度確定ユニット13は、予め設定されたまたは機械学習等の方式によって獲得した出現確率閾値に基づいて、例えば前記出現確率情報が前記出現確率閾値より高い1つまたは複数の分詞を正確分詞とし、前記分詞の出現確率情報が前記出現確率閾値より低い場合は不正確分詞とすることにより、前記分詞の確度情報を確定する。
さらに好ましくは、前記ネットワーク装置1は、閾値確定ユニット(図示せず)をさらに含み、そのうち、前記閾値確定ユニットは前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定する。
具体的には、前記閾値確定ユニットは、前記分詞および前記分詞が対応する候補分詞の出現確率情報を獲得してもよく、例えば前記1つまたは複数の分詞および候補分詞の出現確率に対して、平均、加重平均、メジアン等の方式を実行し、前記出現確率閾値を確定する。
例えば、前記分詞および候補分詞の出現確率情報が{40%、10%、10%、20%、20%}である場合、閾値は30%−40%としてもよく、50%に規定する必要はない。
例えば、前記分詞および候補分詞の出現確率情報が{50%、45%、5%}である場合、出現確率閾値を50%としても、不適切である可能性が高い。
好ましくは、前記配列確定ユニット12は、音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報を結合し、前記音声入力情報に対応する入力文字列を確定してもよい。
具体的には、前記配列確定ユニット12は、例えば前記音声入力情報が対応する文脈情報を結合し、対応する音声認識モデルを確定する。
例えば、前記文脈情報中のキーワードに基づいて、対応する異なる領域の音声認識モデルを判定した後、前記音声認識モデルに基づいて、前記音声入力情報が対応する入力文字列を確定する。
あるいは、汎用の音声認識モデルを用いて前記入力文字列を確定し、前記文脈情報を結合し、前記入力文字列に対して、例えば文脈マッチングを向上させる文字列の重み付けまたは優先度等の調整を行う。そのうち、前記入力文字列の確定方式と図1における前記配列確定ユニット12の確定方式は同一または相似していることから、詳述しないが、引用を以てここに含まれるものとする。
図2に本発明の1つの好適な実施例による音声入力を実現するネットワーク装置およびユーザ装置の概略図を示す。そのうち、ネットワーク装置1は入力獲得ユニット11’、配列確定ユニット12’、確度確定ユニット13’、送信ユニット14’、要求獲得ユニット15’、選択肢確定ユニット16’、選択肢送信ユニット17’を含み、ユーザ装置2は配列獲得ユニット21’、提供ユニット22’、選択肢要求獲得ユニット23’、アクセス要求送信ユニット24’、選択肢受信ユニット25’、選択肢提供ユニット26’を含んでおり、ネットワーク装置1およびユーザ装置2の各装置間は互いに連係して、音声入力を実現する。
具体的には、ネットワーク装置1の入力獲得ユニット11’が音声入力を獲得し、配列確定ユニット12’が音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定し、確度確定ユニット13’が前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、送信ユニット14’が前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。
それに対応して、ユーザ装置2の配列獲得ユニット21’が、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得し、提供ユニット22’が前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供し、選択肢要求獲得ユニット23’が前記ユーザの前記入力文字列中の少なくとも1つの分詞に対する選択肢の要求操作を獲得し、アクセス要求送信ユニット24’が前記要求操作に基づいて前記ネットワーク装置に前記少なくとも1つの分詞に関する選択肢のアクセス要求を送信する。
それに対応して、要求獲得ユニット15’が、前記ユーザ装置が送信した前記少なくとも1つの分詞に関する選択肢のアクセス要求を獲得し、選択肢確定ユニット16’が前記アクセス要求に基づいて、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定し、選択肢送信ユニット17’が前記1つまたは複数の選択肢を前記ユーザ装置に送信する。
それに対応して、選択肢受信ユニット25’が、前記ネットワーク装置が前記アクセス要求に基づいて送信した1つまたは複数の選択肢を受信し、選択肢提供ユニット26’が前記1つまたは複数の選択肢のうち少なくとも1つを前記ユーザに提供する。
そのうち、ネットワーク装置1の入力獲得ユニット11’、配列確定ユニット12’、確度確定ユニット13’、送信ユニット14’およびユーザ装置2の配列獲得ユニット21’、提供ユニット22’は、それぞれ図1に示した対応するユニットと同一または基本的に同一であることから、詳述しないが、引用を以てここに含まれるものとする。
上述の各ユニット間は継続して作動している。ここで当業者は、「継続して」とは、ネットワーク装置が音声入力情報の獲得を停止するまで、上述の各ユニットがそれぞれリアルタイムにあるいは、設定されたまたはリアルタイムに調整された作動モード要求に従って音声入力情報の獲得、入力文字列の確定、確度情報の獲得、入力文字列および分詞の確度情報の送信および受信、入力文字列の提供、選択肢要求操作の獲得、選択肢アクセス要求の送信および受信、選択肢の確定、選択肢の送信および受信、選択肢の提供等を行うことを意味することを理解されたい。
選択肢要求獲得ユニット23’は、前記ユーザの前記入力文字列中の少なくとも1つの分詞に対する選択肢の要求操作を獲得する。具体的には、選択肢要求獲得ユニット23’は、各種通信プロトコルに基づいて、各種アプリケーションプログラミングインターフェースを介して、第三者装置から前記ユーザの前記入力文字列中の少なくとも1つの分詞に対する選択肢の要求操作を獲得する。あるいは、ユーザと直接インタラクションして獲得した要求操作である。そのうち、前記要求操作はクリック、タッチ等を含むが、これに限定されるものではない。例えば、上記の例では、選択肢要求獲得ユニット23’は前記ユーザと直接インタラクションし、前記ユーザがクリック等の方法によって入力した「錦州」に対する選択肢の要求を獲得する。
アクセス要求送信ユニット24’は、前記要求操作に基づいて前記ネットワーク装置に前記少なくとも1つの分詞に関する選択肢のアクセス要求を送信する。具体的には、アクセス要求送信ユニット24’は、前記要求操作に応じて、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記少なくとも1つの分詞に関する選択肢のアクセス要求を前記ネットワーク装置に送信する。
それに対応して、要求獲得ユニット15’は、前記ユーザ装置が送信した前記少なくとも1つの分詞に関する選択肢のアクセス要求を獲得する。具体的には、前記要求獲得ユニット15’は、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記ユーザ装置から前記少なくとも1つの分詞に関する選択肢のアクセス要求を受信する。
選択肢確定ユニット16’は、前記アクセス要求に基づいて、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定する。具体的には、前記選択肢確定ユニット16’は、前記要求獲得ユニット15’が獲得したアクセス要求に基づいて、前記アクセス要求における獲得必要な分詞に応じて、配列確定ユニット12’における前記分詞に対応する候補分詞を直接獲得することによって、前記候補分詞を選択肢とする。あるいは、前記分詞を再処理して、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を獲得する。そのうち、前記処理方法と前記配列確定ユニット12’の方法は同一または相似していることから、詳述しないが、引用を以てここに含まれるものとする。
選択肢送信ユニット17’は、前記1つまたは複数の選択肢を前記ユーザ装置に送信する。具体的には、選択肢送信ユニット17’は、前記選択肢確定ユニット16’が確定した1つまたは複数の選択肢を獲得し、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記1つまたは複数の選択肢を前記ユーザ装置に送信する。
それに対応して、ユーザ装置の選択肢受信ユニット25’は、前記前記ネットワーク装置が前記アクセス要求に基づいて送信した1つまたは複数の選択肢を受信する。具体的には、選択肢受信ユニット25’は、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記ネットワーク装置から前記アクセス要求に基づいて送信された1つまたは複数の選択肢を受信する。
選択肢提供ユニット26’は、前記1つまたは複数の選択肢のうち少なくとも1つを前記ユーザに提供する。
具体的には、選択肢提供ユニット26’は、前記選択肢受信ユニット25’で獲得した1つまたは複数の選択肢に基づいて、システムが予め設定した、またはユーザが設定する方式で、前記1つまたは複数の選択肢のうち少なくとも1つを、前記ユーザとインタラクションを行うことによって前記ユーザに提供する。
あるいは、各種通信プロトコルに基づいて、ユーザの対応するユーザ装置が提供するアプリケーションプログラミングインターフェース(API)等の方式を介して、前記1つまたは複数の選択肢のうち少なくとも1つを前記ユーザに提供する。
ここで、前記ユーザは前記音声入力情報の提供に対応するユーザ、あるいは前記音声入力情報を受信する指定されたユーザ等を含むが、これに限定されるものではない。
好ましくは、ネットワーク装置1の選択肢確定ユニット16’は、前記アクセス要求に基づいて、前記少なくとも1つの分詞の文脈情報を結合し、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定してもよい。
具体的には、前記選択肢確定ユニット16’は、前記アクセス要求に基づいて、前記アクセス要求における分詞の文脈情報を結合することにより、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢に対して確定を行ってもよい。例えば、文脈情報に基づいて、常用連語または文法等の情報を結合することにより、前記文脈情報とのマッチング度が低い選択肢を除外する。例えば、音声入力「我帯弥去錦州」について、選択肢が必要な分詞が「錦州」であるとすると、「去」という方向詞を考慮して、対応する選択肢はおそらく「金州」、「晋州」であり、「禁咒」を含むことはない。
好ましくは、前記ユーザ装置2は、操作獲得ユニット(図示せず)および置換ユニット(図示せず)をさらに含む。そのうち、操作獲得ユニットはユーザの前記1つまたは複数の選択肢のうち少なくとも1つに対する選択操作を獲得し、置換ユニットは前記選択操作が対応する選択肢に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する。
具体的には、操作獲得ユニットは、ユーザと直接インタラクションする、あるいは前記選択操作を提供することができる第三者が備えるアプリケーションプログラミングインターフェース等を経由して、ユーザの前記1つまたは複数の選択肢のうち少なくとも1つに対する選択操作を獲得する。例えば、ユーザがクリック等の方法によって1つまたは複数の選択肢のうちの1つを選択すると、操作獲得ユニットは前記選択操作および選択した選択肢に対して獲得を行う。置換ユニットは前記操作獲得ユニットが選択した選択肢を獲得し、前記選択肢を用いて前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する。例えば、上記の例では、ユーザが選択肢「金州」を選択することにより、置換ユニットは「金州」を用いて前記「錦州」を置き換え、更新後の入力文字列は「我帯弥去金州」となる。
図3に本発明の別の様態によるネットワーク装置およびユーザ装置の連係により音声入力を実現する方法のフローチャートを示す。
具体的には、ステップs1において、ネットワーク装置1が音声入力情報を獲得し、ステップs2において、ネットワーク装置1が音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定し、ステップs3において、ネットワーク装置1が前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、ステップs4において、ネットワーク装置1が前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。それに対応して、ステップs4において、ユーザ装置2が、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得し、ステップs5において、ユーザ装置2が前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。
上述の各ユニット間は継続して作動している。ここで当業者は、「継続して」とは、ネットワーク装置が音声入力情報の獲得を停止するまで、上述の各ユニットがそれぞれリアルタイムにあるいは、設定されたまたはリアルタイムに調整された作動モード要求に従って音声入力情報の獲得、入力文字列の確定、確度情報の獲得、入力文字列および分詞の確度情報の送信および受信、入力文字列の提供等を行うことを意味することを理解されたい。
ステップs1において、ネットワーク装置1は音声入力情報を獲得する。具体的には、ステップs1において、ネットワーク装置1は各種通信プロトコル(Communication Protocol)に基づいて、各種データ伝送インターフェースを介して第三者の音声入力情報データ等とインタラクションを行い、音声入力情報を獲得する。あるいは、ステップs1において、ネットワーク装置1はユーザが入力した音声入力情報をリアルタイムに獲得する、あるいは、前記ユーザ装置とインタラクションを行い、ユーザがリアルタイムに入力した音声入力情報を獲得する等でもよい。そのうち、前記音声入力情報は文字、単語、短文、長文等を含むが、これに限定されるものではない。
ステップs2において、ネットワーク装置1は、音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定する。具体的には、ステップs2において、ネットワーク装置1は、予め設定されたまたは学習にて得られた音声認識モデルに基づいて、例えば音声入力情報に分割を行うことにより、前記音声入力情報に対応する1つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレート等にマッチングさせることにより、前記音節に対応する1つまたは複数の分詞または候補分詞を獲得し、順次前記入力音節にマッチングを行うことにより、前記音声入力情報に対応する入力文字列を確定する。そのうち、前記入力文字列には前記音声入力情報に対応する複数の分詞または候補分詞を含む。
ここで、前記音声認識モデルは汎用の音声認識モデル、あるいは現在のユーザのみと対応する特定音声認識モデルを含むが、これに限定されるものではなく、前記音声認識モデルは音声認識訓練により得られる。例えば、前記音声入力情報に対応するセンテンス「我帯弥去錦州」であれば、ステップs2において、ネットワーク装置1は前記音声入力情報に対して分割を行うことにより、前記音声入力情報に対応する複数の分詞または候補分詞を獲得する。例えば、我、帯、弥、去、錦州であり、そのうち、「帯」の位置には「代、待、呆(10%)」、「錦州」の位置には「金州、晋州」等のような他の候補分詞もあり得る。
ステップs3において、ネットワーク装置1は、前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得する。具体的には、ステップs3において、ネットワーク装置1は、機械学習によって獲得した、あるいは対応する出現確率情報データベース等に照会することによって獲得した情報に基づいて、前記入力文字列中の分詞が対応する出現確率情報を確定し、前記出現確率情報に基づいて、前記出現確率情報を直接前記分詞の確度情報とする方式により、前記分詞の確度情報を獲得する。あるいは例えば前記分詞の前記入力文字列における文脈情報または前記分詞の品詞情報等に基づいて、前記出現確率情報に対して処理を行って、前記分詞の確度情報を獲得する。
例えば、上記の例では、ステップs3において、ネットワーク装置1は出現確率情報データベースとのインタラクションによって、前記音声入力情報に対応するセンテンス「我帯弥去錦州」中の分詞が対応する出現確率情報(括弧内に示す)、我(90%)、帯(40%)、弥(90%)、去(98%)、錦州(40%)を獲得し、そのうち、「帯」の位置には「代(30%)、待(20%)、呆(10%)」、「錦州」の位置には「金州(30%)、晋州(30%)」等のような他の候補分詞もあり得る。ステップs3において、ネットワーク装置1は、前記出現確率情報を直接対応させて前記分詞の確度情報とする。すなわち、例えば「我」の確度情報は90%である。
ステップs4において、ネットワーク装置1は、前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。具体的には、ステップs4において、ネットワーク装置1は、ステップs3から獲得した1つまたは複数の分詞または候補分詞で形成された入力文字列、および前記分詞の確度情報を、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。
それに対応して、ステップs4において、ユーザ装置2は、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得する。具体的には、ステップs4において、ユーザ装置2は各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記ネットワーク装置から1つまたは複数の分詞または候補分詞で形成された前記音声入力情報に対応する入力文字列、および前記分詞の確度情報を受信する。
ステップs5において、ユーザ装置2は、前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。具体的には、ステップs5において、ユーザ装置2は、ステップs4で獲得した入力文字列、および前記入力文字列中の分詞の確度情報に基づいて、同一の入力音節に対応する前記確度情報の最も高い分詞に組み合わせることにより、前記ユーザに提供する入力文字列を生成する。あるいは、同一の入力音節に対応するすべての分詞または候補分詞を確度情報に従って高いものから低いものへとソートを行った後、前記ユーザに供給する入力文字列を生成する。そのうち、前記入力文字列にはすべてのマッチングする分詞を含む。
前記ユーザとインタラクションを行うことによって、各種通信プロトコルに基づいて、ユーザの対応するユーザ装置が提供するアプリケーションプログラミングインターフェース(API)等の方式を介して、前記入力文字列を前記ユーザに提供する。ここで、前記ユーザは前記音声入力情報の提供に対応するユーザ、あるいは前記音声入力情報を受信する指定されたユーザ等を含むが、これに限定されるものではない。
好ましくは、ステップs3において、ネットワーク装置1は、前記分詞の前記入力文字列における条件付き確率を確定して、前記分詞の出現確率情報とし、出現確率閾値に基づいて、前記分詞の出現確率情報によって、前記分詞の確度情報を確定してもよい。具体的には、ステップs3において、ネットワーク装置1は、前記分詞の前記入力文字列における条件付き確率を直接獲得してもよい。あるいは、まず前記入力文字列が出現する確率P(B)を獲得し、その後前記入力文字列に前記分詞が含まれる確率P(AB)を獲得することにより、前記入力文字列に前記分詞が出現する条件付き確率P(A|B)を算出し、前記条件付き確率P(A|B)を前記分詞の出現確率情報としてもよい。
ステップs3において、ネットワーク装置1は、予め設定されたまたは機械学習等の方式によって獲得した出現確率閾値に基づいて、例えば前記出現確率情報が前記出現確率閾値より高い1つまたは複数の分詞を正確分詞とし、前記分詞の出現確率情報が前記出現確率閾値より低い場合は不正確分詞とすることにより、前記分詞の確度情報を確定する。
さらに好ましくは、当該方法はステップs11(図示せず)をさらに含み、そのうち、ステップs11において、ネットワーク装置1は前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定する。具体的には、ステップs11において、ネットワーク装置1は、前記分詞および前記分詞が対応する候補分詞の出現確率情報を獲得してもよく、例えば前記1つまたは複数の分詞および候補分詞の出現確率に対して、平均、加重平均、メジアン等の方式を実行し、前記出現確率閾値を確定する。例えば、前記分詞および候補分詞の出現確率情報が{40%、10%、10%、20%、20%}である場合、閾値は30%−40%としてもよく、50%に規定する必要はない。例えば、前記分詞および候補分詞の出現確率情報が{50%、45%、5%}である場合、出現確率閾値を50%としても、不適切である可能性が高い。
好ましくは、ステップs2において、ネットワーク装置1は、音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報を結合し、前記音声入力情報に対応する入力文字列を確定してもよい。具体的には、ステップs2において、ネットワーク装置1は、例えば前記音声入力情報が対応する文脈情報を結合し、対応する音声認識モデルを確定する。例えば、前記文脈情報中のキーワードに基づいて、対応する異なる領域の音声認識モデルを判定した後、前記音声認識モデルに基づいて、前記音声入力情報が対応する入力文字列を確定する。あるいは、汎用の音声認識モデルを用いて前記入力文字列を確定し、前記文脈情報を結合し、前記入力文字列に対して、例えば文脈マッチングを向上させる文字列の重み付けまたは優先度等の調整を行う。そのうち、前記入力文字列の確定方式と図31におけるステップs2の確定方式は同一または相似していることから、詳述しないが、引用を以てここに含まれるものとする。
図4に本発明の1つの好適な実施例によるネットワーク装置およびユーザ装置の連係により音声入力を実現する方法のフローチャートを示す。
具体的には、ステップs1’において、ネットワーク装置1が音声入力情報を獲得し、ステップs2’において、ネットワーク装置1が音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定し、ステップs3’において、ネットワーク装置1が前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、ステップs4’において、ネットワーク装置1が前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。
それに対応して、ステップs4’において、ユーザ装置2が、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得し、ステップs5’において、ユーザ装置2が前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供し、ステップs6’において、ユーザ装置2が前記ユーザの前記入力文字列中の少なくとも1つの分詞に対する選択肢の要求操作を獲得し、ステップs7’において、ユーザ装置2が前記要求操作に基づいて前記ネットワーク装置に前記少なくとも1つの分詞に関する選択肢のアクセス要求を送信する。
それに対応して、ステップs7’において、ネットワーク装置1が、前記ユーザ装置が送信した前記少なくとも1つの分詞に関する選択肢のアクセス要求を獲得し、ステップs8’において、ネットワーク装置1が前記アクセス要求に基づいて、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定し、ステップs9’において、ネットワーク装置1が前記1つまたは複数の選択肢を前記ユーザ装置に送信する。
それに対応して、ステップs9’において、ユーザ装置2が、前記ネットワーク装置が前記アクセス要求に基づいて送信した1つまたは複数の選択肢を受信し、ステップs10’において、ユーザ装置2が前記1つまたは複数の選択肢のうち少なくとも1つを前記ユーザに提供する。そのうち、ステップs1’、ステップs2’、ステップs3’、ステップs4’、ステップs5’は、それぞれ図3に示した対応するステップと同一または基本的に同一であることから、詳述しないが、引用を以てここに含まれるものとする。
上述の各ユニット間は継続して作動している。ここで当業者は、「継続して」とは、ネットワーク装置が音声入力情報の獲得を停止するまで、上述の各ユニットがそれぞれリアルタイムにあるいは、設定されたまたはリアルタイムに調整された作動モード要求に従って音声入力情報の獲得、入力文字列の確定、確度情報の獲得、入力文字列および分詞の確度情報の送信および受信、入力文字列の提供、選択肢要求操作の獲得、選択肢アクセス要求の送信および受信、選択肢の確定、選択肢の送信および受信、選択肢の提供等を行うことを意味することを理解されたい。
ステップs6’において、ユーザ装置2は、前記ユーザの前記入力文字列中の少なくとも1つの分詞に対する選択肢の要求操作を獲得する。具体的には、ステップs6’において、ユーザ装置2は、各種通信プロトコルに基づいて、各種アプリケーションプログラミングインターフェースを介して、第三者装置から前記ユーザの前記入力文字列中の少なくとも1つの分詞に対する選択肢の要求操作を獲得する。あるいは、ユーザと直接インタラクションして獲得した要求操作である。
そのうち、前記要求操作はクリック、タッチ等を含むが、これに限定されるものではない。例えば、上記の例では、ステップs6’において、ユーザ装置2は前記ユーザと直接インタラクションし、前記ユーザがクリック等の方法によって入力した「錦州」に対する選択肢の要求を獲得する。
ステップs7’において、ユーザ装置2は、前記要求操作に基づいて前記ネットワーク装置に前記少なくとも1つの分詞に関する選択肢のアクセス要求を送信する。具体的には、ステップs7’において、ユーザ装置2は、前記要求操作に応じて、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記少なくとも1つの分詞に関する選択肢のアクセス要求を前記ネットワーク装置に送信する。
それに対応して、ステップs7’において、ネットワーク装置1は、前記ユーザ装置が送信した前記少なくとも1つの分詞に関する選択肢のアクセス要求を獲得する。具体的には、ステップs7’において、ネットワーク装置1は、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記ユーザ装置から前記少なくとも1つの分詞に関する選択肢のアクセス要求を受信する。
ステップs8’において、ネットワーク装置1は、前記アクセス要求に基づいて、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定する。具体的には、ステップs8’において、ネットワーク装置1は、ステップs7’が獲得したアクセス要求に基づいて、前記アクセス要求における獲得必要な分詞に応じて、ステップs2’における前記分詞に対応する候補分詞を直接獲得することによって、前記候補分詞を選択肢とする。あるいは、前記分詞を再処理して、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を獲得する。そのうち、前記処理方法と前記ステップs2’の方法は同一または相似していることから、詳述しないが、引用を以てここに含まれるものとする。
ステップs9’において、ネットワーク装置1は、前記1つまたは複数の選択肢を前記ユーザ装置に送信する。具体的には、ステップs9’において、ネットワーク装置1は、前記ステップs8’が確定した1つまたは複数の選択肢を獲得し、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記1つまたは複数の選択肢を前記ユーザ装置に送信する。
それに対応して、ステップs9’において、ユーザ装置2は、前記ネットワーク装置が前記アクセス要求に基づいて送信した1つまたは複数の選択肢を受信する。具体的には、ステップs9’において、ユーザ装置2は、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース(API)を介して、あるいはその他の所定の通信方式の形式要求により、前記ネットワーク装置から前記アクセス要求に基づいて送信された1つまたは複数の選択肢を受信する。
ステップs10’において、ユーザ装置2は、前記1つまたは複数の選択肢のうち少なくとも1つを前記ユーザに提供する。具体的には、ステップs10’において、ユーザ装置2は、ステップs9’で獲得した1つまたは複数の選択肢に基づいて、システムが予め設定した、またはユーザが設定する方式で、前記1つまたは複数の選択肢のうち少なくとも1つを、前記ユーザとインタラクションを行うことによって前記ユーザに提供する。あるいは、各種通信プロトコルに基づいて、ユーザの対応するユーザ装置が提供するアプリケーションプログラミングインターフェース(API)等の方式を介して、前記1つまたは複数の選択肢のうち少なくとも1つを前記ユーザに提供する。ここで、前記ユーザは前記音声入力情報の提供に対応するユーザ、あるいは前記音声入力情報を受信する指定されたユーザ等を含むが、これに限定されるものではない。
好ましくは、ステップs8’において、ネットワーク装置1は、前記アクセス要求に基づいて、前記少なくとも1つの分詞の文脈情報を結合し、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定してもよい。具体的には、ステップs8’において、ネットワーク装置1は、前記アクセス要求に基づいて、前記アクセス要求における分詞の文脈情報を結合することにより、前記前記少なくとも1つの分詞に対応する1つまたは複数の選択肢に対して確定を行ってもよい。例えば、文脈情報に基づいて、常用連語または文法等の情報を結合することにより、前記文脈情報とのマッチング度が低い選択肢を除外する。例えば、音声入力「我帯弥去錦州」について、選択肢が必要な分詞が「錦州」であるとすると、「去」という方向詞を考慮して、対応する選択肢はおそらく「金州」、「晋州」であり、「禁咒」を含むことはない。
好ましくは、当該方法はステップs12’(図示せず)およびステップs13’(図示せず)をさらに含む。そのうち、ステップs12’において、ユーザ装置2はユーザの前記1つまたは複数の選択肢のうち少なくとも1つに対する選択操作を獲得し、ステップs13’において、ユーザ装置2は前記選択操作が対応する選択肢に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する。
具体的には、ステップs12’において、ユーザ装置2は、ユーザと直接インタラクションする、あるいは前記選択操作を提供することができる第三者が備えるアプリケーションプログラミングインターフェース等を経由して、ユーザの前記1つまたは複数の選択肢のうち少なくとも1つに対する選択操作を獲得する。例えば、ユーザがクリック等の方法によって1つまたは複数の選択肢のうちの1つを選択すると、ステップs12’において、ユーザ装置2は前記選択操作および選択した選択肢に対して獲得を行う。
ステップs13’において、ユーザ装置2は前記ステップs12’が選択した選択肢を獲得し、ステップs13’において、ユーザ装置2を用いて前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する。例えば、上記の例では、ユーザが選択肢「金州」を選択することにより、置換ユニットは「金州」を用いて前記「錦州」を置き換え、更新後の入力文字列は「我帯弥去金州」となる。
当業者にとって、本発明が上述の模範的な実施例の細部に限定されるものではないことは明らかであり、本発明の精神または基本的な特徴から逸脱しない限りにおいて、その他の具体的形式で本発明を実現し得るものである。よって、いずれの点においても、実施例を模範とし、かつ制限されるものでもない。本発明の範囲は添付の特許請求の範囲によるものであり、上述の説明に限定されるものではなく、よって、特許請求の範囲の同等案件の含意および範囲内のすべての変化を本発明に含むことを目的とする。特許請求の範囲におけるいかなる図面標識も特許請求の範囲を制限するとみなすべきではない。この他、「含む」という語は、その他のユニットまたはステップを排除するものではなく、単数は複数を排除するものでもないことは明らかである。装置の特許請求の範囲における複数のユニットまたは装置という記載も、1つのユニットまたは装置でソフトウェアまたはハードウェアによって実現してもよい。第1、第2等の語を用いた名称は、いかなる順序を特定するものでもない。

Claims (16)

  1. ネットワーク装置端末において音声入力を実現する方法であって、
    音声入力情報を獲得するステップaと、
    予め設定されたまたは学習にて得られた音声認識モデルに基づいて、前記音声入力情報を分割することにより、前記音声入力情報に対応する1つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレートにマッチングさせることにより、当該各音節に対応する1つまたは複数の分詞を獲得し、順次前記入力音節にマッチングを行うことにより前記音声入力情報に対応する入力文字列を確定するステップであって、前記入力文字列は、前記音声入力情報に対応する複数の分詞と、同じ入力音節に対応する同音異義語である少なくとも2つの分詞を含むものであるステップbと、
    前記入力文字列中の分詞の前記入力文字列における条件付き確率を確定して、前記分詞の出現確率情報とし、出現確率閾値及び前記分詞の前記出現確率情報に基づいて前記分詞の確度情報を確定するステップcと、
    前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信するステップdと、
    を含む方法。
  2. 前記ユーザ装置が送信した前記入力文字列中の前記少なくとも1つの分詞に関する選択肢のアクセス要求を獲得するステップと、
    前記アクセス要求に基づいて、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定するステップxと、
    前記1つまたは複数の選択肢を前記ユーザ装置に送信するステップと、
    をさらに含む請求項1に記載の方法。
  3. 前記ステップxは、前記アクセス要求に基づいて、前記少なくとも1つの分詞の文脈情報に合わせて基づいて、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定するステップを含む請求項2に記載の方法。
  4. 前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定するステップをさらに含む請求項1に記載の方法。
  5. 前記ステップbは、音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報に合わせて基づいて、前記音声入力情報に対応する入力文字列を確定するステップを含む請求項1〜4のいずれか1項に記載の方法。
  6. ユーザ装置端末において音声入力の実現を補助する方法であって、
    ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得するステップであって、前記入力文字列は、前記音声入力情報に対応する複数の分詞と、同じ入力音節に対応する同音異義語である少なくとも2つの分詞を含むものであり、前記確度情報は前記分詞の前記入力文字列中の条件付き確率により確定されるステップAと、
    前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供するステップBと、
    を含み、
    前記入力文字列は、前記ネットワーク装置により、
    予め設定されたまたは学習にて得られた音声認識モデルに基づいて、前記音声入力情報を分割することにより、前記音声入力情報に対応する1つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレートにマッチングさせることにより、当該各音節に対応する1つまたは複数の分詞を獲得し、順次前記入力音節にマッチングを行うことにより前記音声入力情報に対応する入力文字列を確定する
    ことにより、確定されるものである
    方法。
  7. 前記ユーザの前記入力文字列中の少なくとも1つの分詞に対する選択肢の要求操作を獲得するステップと、
    前記要求操作に基づいて前記ネットワーク装置に前記少なくとも1つの分詞に関する選択肢のアクセス要求を送信するステップと、
    前記ネットワーク装置が前記アクセス要求に基づいて送信した1つまたは複数の選択肢を受信するステップと、
    前記1つまたは複数の選択肢のうち少なくとも1つを前記ユーザに提供するステップと、
    をさらに含む請求項6に記載の方法。
  8. ユーザの前記1つまたは複数の選択肢のうち少なくとも1つに対する選択操作を獲得するステップと、
    前記選択操作に対応する選択肢に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得するステップと、
    をさらに含む請求項7に記載の方法。
  9. 音声入力を実現するネットワーク装置であって、
    音声入力情報を獲得する入力獲得ユニットと、
    予め設定されたまたは学習にて得られた音声認識モデルに基づいて、音声入力情報を分割することにより、前記音声入力情報に対応する1つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレートにマッチングさせることにより、当該各音節に対応する1つまたは複数の分詞を獲得し、順次前記入力音節にマッチングを行うことにより前記音声入力情報に対応する入力文字列を確定するユニットであって、前記入力文字列は、前記音声入力情報に対応する複数の分詞と、同じ入力音節に対応する同音異義語である少なくとも2つの分詞を含むものである配列確定ユニットと、
    前記入力文字列中の分詞の前記入力文字列における条件付き確率を確定して、前記分詞の出現確率情報とし、出現確率閾値及び前記分詞の前記出現確率情報に基づいて前記分詞の確度情報を獲得する確度確定ユニットと、
    前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する送信ユニットと、
    を含むネットワーク装置。
  10. 前記ユーザ装置が送信した前記入力文字列中の前記少なくとも1つの分詞に関する選択肢のアクセス要求を獲得する要求獲得ユニットと、
    前記アクセス要求に基づいて、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定する選択肢確定ユニットと、
    前記1つまたは複数の選択肢を前記ユーザ装置に送信する選択肢送信ユニットと、
    をさらに含む請求項9に記載のネットワーク装置。
  11. 前記選択肢確定ユニットは、前記アクセス要求に基づいて、前記少なくとも1つの分詞の文脈情報に合わせて基づいて、前記少なくとも1つの分詞に対応する1つまたは複数の選択肢を確定する請求項10に記載のネットワーク装置。
  12. 前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定する閾値確定ユニットをさらに含む請求項9に記載のネットワーク装置。
  13. 前記配列確定ユニットは、音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報に合わせて基づいて、前記音声入力情報に対応する入力文字列を確定する請求項9〜12のいずれか1項に記載のネットワーク装置。
  14. 音声入力の実現を補助するユーザ装置であって、
    ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得する配列獲得ユニットであって、前記入力文字列は、前記音声入力情報に対応する複数の分詞と、同じ入力音節に対応する同音異義語である少なくとも2つの分詞を含むものであり、前記確度情報は前記分詞の前記入力文字列中の条件付き確率により確定される配列獲得ユニットと、
    前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する提供ユニットと、
    を含み、
    前記入力文字列は、前記ネットワーク装置により、
    予め設定されたまたは学習にて得られた音声認識モデルに基づいて、前記音声入力情報を分割することにより、前記音声入力情報に対応する1つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレートにマッチングさせることにより、当該各音節に対応する1つまたは複数の分詞を獲得し、順次前記入力音節にマッチングを行うことにより前記音声入力情報に対応する入力文字列を確定する
    ことにより、確定されるものである
    ユーザ装置。
  15. 前記ユーザの前記入力文字列中の少なくとも1つの分詞に対する選択肢の要求操作を獲得する選択肢要求獲得ユニットと、
    前記要求操作に基づいて前記ネットワーク装置に前記少なくとも1つの分詞に関する選択肢のアクセス要求を送信するアクセス要求送信ユニットと、
    前記ネットワーク装置が前記アクセス要求に基づいて送信した1つまたは複数の選択肢を受信する選択肢受信ユニットと、
    前記1つまたは複数の選択肢のうち少なくとも1つを前記ユーザに提供する選択肢提供ユニットと、
    をさらに含む請求項14に記載のユーザ装置。
  16. ユーザの前記1つまたは複数の選択肢のうち少なくとも1つに対する選択操作を獲得する操作獲得ユニットと、
    前記選択操作が対応する選択肢に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する置換ユニットと、
    をさらに含む請求項15に記載のユーザ装置。
JP2015549964A 2012-12-31 2013-12-17 音声入力を実現する方法および装置 Active JP6309539B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210592826.2 2012-12-31
CN201210592826.2A CN103076893B (zh) 2012-12-31 2012-12-31 一种用于实现语音输入的方法与设备
PCT/CN2013/089721 WO2014101687A1 (zh) 2012-12-31 2013-12-17 一种用于实现语音输入的方法与设备

Publications (3)

Publication Number Publication Date
JP2016505893A JP2016505893A (ja) 2016-02-25
JP2016505893A5 JP2016505893A5 (ja) 2017-02-09
JP6309539B2 true JP6309539B2 (ja) 2018-04-11

Family

ID=48153449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015549964A Active JP6309539B2 (ja) 2012-12-31 2013-12-17 音声入力を実現する方法および装置

Country Status (5)

Country Link
US (1) US10199036B2 (ja)
EP (1) EP2940551B1 (ja)
JP (1) JP6309539B2 (ja)
CN (1) CN103076893B (ja)
WO (1) WO2014101687A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076893B (zh) 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
CN105159473B (zh) * 2015-08-17 2018-02-13 百度在线网络技术(北京)有限公司 一种语言模型计算处理方法及系统
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
CN105700704B (zh) * 2016-03-21 2018-08-28 深圳五洲无线股份有限公司 小尺寸屏幕下的文字输入方法和装置
US9990564B2 (en) * 2016-03-29 2018-06-05 Wipro Limited System and method for optical character recognition
CN107516176B (zh) 2016-06-17 2021-03-19 菜鸟智能物流控股有限公司 物流信息处理方法及装置
CN108241438B (zh) * 2016-12-23 2022-02-25 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
CN107068145B (zh) * 2016-12-30 2019-02-15 中南大学 语音评测方法及系统
CN109543174B (zh) * 2017-09-21 2023-05-09 广州腾讯科技有限公司 文本选择方法、装置、计算机可读存储介质和计算机设备
US11875798B2 (en) * 2021-05-03 2024-01-16 International Business Machines Corporation Profiles for enhanced speech recognition training

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57195300A (en) 1981-05-26 1982-11-30 Sanyo Electric Co Voice recognition unit
EP0302614B1 (en) * 1987-07-16 1993-03-10 Fujitsu Limited Speech recognition device
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
US5233681A (en) * 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
JPH0689302A (ja) * 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
JP3758241B2 (ja) * 1996-08-01 2006-03-22 三菱電機株式会社 音声情報検索装置
CN1161701C (zh) * 1997-03-14 2004-08-11 欧姆龙株式会社 语言识别装置和语言识别方法
US6269335B1 (en) * 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6356866B1 (en) * 1998-10-07 2002-03-12 Microsoft Corporation Method for converting a phonetic character string into the text of an Asian language
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
ATE326754T1 (de) * 2000-09-18 2006-06-15 L & H Holdings Usa Inc Homophonewahl in der spracherkennung
US20020184019A1 (en) * 2001-05-31 2002-12-05 International Business Machines Corporation Method of using empirical substitution data in speech recognition
US20030078777A1 (en) * 2001-08-22 2003-04-24 Shyue-Chin Shiau Speech recognition system for mobile Internet/Intranet communication
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
US7574356B2 (en) * 2004-07-19 2009-08-11 At&T Intellectual Property Ii, L.P. System and method for spelling recognition using speech and non-speech input
US8825379B2 (en) * 2005-01-05 2014-09-02 Sirius Xm Connected Vehicle Services Inc. Systems and methods for off-board voice-automated vehicle navigation
KR100679044B1 (ko) 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US20080130699A1 (en) * 2006-12-05 2008-06-05 Motorola, Inc. Content selection using speech recognition
JP5207642B2 (ja) * 2007-03-06 2013-06-12 ニュアンス コミュニケーションズ,インコーポレイテッド 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US7844456B2 (en) * 2007-03-09 2010-11-30 Microsoft Corporation Grammar confusability metric for speech recognition
EP1975923B1 (en) 2007-03-28 2016-04-27 Nuance Communications, Inc. Multilingual non-native speech recognition
JP5042799B2 (ja) * 2007-04-16 2012-10-03 ソニー株式会社 音声チャットシステム、情報処理装置およびプログラム
JP4412504B2 (ja) * 2007-04-17 2010-02-10 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識用プログラム
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
US7953598B2 (en) * 2007-12-17 2011-05-31 Verizon Patent And Licensing Inc. Grammar weighting voice recognition information
US9177551B2 (en) * 2008-01-22 2015-11-03 At&T Intellectual Property I, L.P. System and method of providing speech processing in user interface
US20090228273A1 (en) * 2008-03-05 2009-09-10 Microsoft Corporation Handwriting-based user interface for correction of speech recognition errors
US8224656B2 (en) * 2008-03-14 2012-07-17 Microsoft Corporation Speech recognition disambiguation on mobile devices
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
US8762153B2 (en) * 2008-08-18 2014-06-24 At&T Intellectual Property I, L.P. System and method for improving name dialer performance
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US9069755B2 (en) * 2010-03-11 2015-06-30 Microsoft Technology Licensing, Llc N-gram model smoothing with independently controllable parameters
CN102063195B (zh) * 2010-04-06 2013-08-28 百度在线网络技术(北京)有限公司 一种用于供用户进行中英文混合输入的方法与设备
CN102299934A (zh) * 2010-06-23 2011-12-28 上海博路信息技术有限公司 一种基于云模式和语音识别的语音输入方法
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
KR101208166B1 (ko) * 2010-12-16 2012-12-04 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
JP5752488B2 (ja) 2011-05-31 2015-07-22 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
CN102385619A (zh) * 2011-10-19 2012-03-21 百度在线网络技术(北京)有限公司 一种根据语音输入信息提供访问建议的方法与设备
US9620122B2 (en) * 2011-12-08 2017-04-11 Lenovo (Singapore) Pte. Ltd Hybrid speech recognition
US8346563B1 (en) * 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
US9431012B2 (en) * 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
CN103076893B (zh) 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备

Also Published As

Publication number Publication date
US10199036B2 (en) 2019-02-05
EP2940551A1 (en) 2015-11-04
CN103076893A (zh) 2013-05-01
JP2016505893A (ja) 2016-02-25
EP2940551B1 (en) 2018-11-28
CN103076893B (zh) 2016-08-17
EP2940551A4 (en) 2016-08-03
WO2014101687A1 (zh) 2014-07-03
US20150302852A1 (en) 2015-10-22

Similar Documents

Publication Publication Date Title
JP6309539B2 (ja) 音声入力を実現する方法および装置
US10628474B2 (en) Probabalistic generation of diverse summaries
CN110334344B (zh) 一种语义意图识别方法、装置、设备及存储介质
US20190251165A1 (en) Conversational agent
US20180349387A1 (en) Computerized system and method for search query auto-completion
WO2020103721A1 (zh) 信息处理的方法、装置及存储介质
JP6517352B2 (ja) 翻訳情報の提供方法及びシステム
US10951555B2 (en) Providing local service information in automated chatting
US20150169710A1 (en) Method and apparatus for providing search results
US20220019341A1 (en) Map information display method and apparatus, electronic device, and computer storage medium
US20180268307A1 (en) Analysis device, analysis method, and computer readable storage medium
JP2016508264A (ja) 入力文字列に対応する入力候補アイテムを提供する方法及び装置
EP3423961A1 (en) Providing images for search queries
EP2916239A1 (en) Method and device for providing search result on mobile terminal
US20200167429A1 (en) Efficient use of word embeddings for text classification
WO2020024455A1 (zh) 基于上下文的输入方法、装置、存储介质及计算机设备
WO2020155747A1 (zh) 问题答案推荐方法、装置、存储介质及服务器
CN111931067A (zh) 兴趣点推荐方法、装置、设备和介质
JP2008287210A5 (ja)
JP2023541742A (ja) ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム
CN112560452B (zh) 一种自动生成纠错语料的方法和系统
JP2019053386A (ja) 情報処理装置、情報処理方法、およびプログラム
CN111259125A (zh) 语音播报的方法和装置、智能音箱、电子设备、存储介质
CN105677882B (zh) 一种展示评论信息的方法和装置
JP7241122B2 (ja) スマート応答方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161216

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161216

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20161227

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180314

R150 Certificate of patent or registration of utility model

Ref document number: 6309539

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250