JP6618223B2 - 音声処理方法及び装置 - Google Patents

音声処理方法及び装置 Download PDF

Info

Publication number
JP6618223B2
JP6618223B2 JP2018567843A JP2018567843A JP6618223B2 JP 6618223 B2 JP6618223 B2 JP 6618223B2 JP 2018567843 A JP2018567843 A JP 2018567843A JP 2018567843 A JP2018567843 A JP 2018567843A JP 6618223 B2 JP6618223 B2 JP 6618223B2
Authority
JP
Japan
Prior art keywords
word
character
information
text information
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018567843A
Other languages
English (en)
Other versions
JP2019532318A (ja
Inventor
シュフ リ
シュフ リ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Geely Holding Group Co Ltd
Zhejiang Geely Automobile Research Institute Co Ltd
Original Assignee
Zhejiang Geely Holding Group Co Ltd
Zhejiang Geely Automobile Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Geely Holding Group Co Ltd, Zhejiang Geely Automobile Research Institute Co Ltd filed Critical Zhejiang Geely Holding Group Co Ltd
Publication of JP2019532318A publication Critical patent/JP2019532318A/ja
Application granted granted Critical
Publication of JP6618223B2 publication Critical patent/JP6618223B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

<関連出願の相互参照>
本願は、2016年9月22日に出願された第201610841160.8号の中国特許出願に基づくものであり、その優先権を主張する。上記出願の全開示は、参照により本明細書に組み込まれ、本明細書の一部をなす。
本発明は、音声認識技術の分野に関し、特に音声処理方法及び装置に関する。
音声認識技術は、機器を通して人間の音声を正しく認識し、人間の音声における語彙内容を対応するコンピューター読み取り可能及び書き込み可能なテキスト又は命令に変換することができるハイテク技術である。科学と技術の継続的な進展に伴い、音声認識技術はますます広範囲になっている。音声認識技術は、キーボード入力などの他の入力方法よりも使いやすいため、最も重要なヒューマンコンピュータ・インタラクション技術の1つとなる。
しかしながら、従来技術の音声入力方法の最も大きな問題は、音声処理の認識速度が速くなく、正確性が高くないということである。認識速度が遅いという問題は徐々に解決されてきたが、言語における類似の単語や様々な言語の存在及び他の理由により、精度が低い問題は解決することができず、それはユーザー体験に影響を与え、ユーザー音声入力の要求を満たすことができない。
従って、本発明は、音声処理の精度及び利便性を向上させ、ユーザーに良好な経験効果を与えることができる音声処理方法を提供する。
本発明の実施形態は、音声処理方法を提供する。この方法は、音声情報を受信するステップと、音声情報を複数のテキスト情報に変換するように音声情報を認識するステップと、少なくとも1つのテキスト情報を表示するステップと、選択されたテキスト情報に応じて応答するように選択信号を受信するステップとを含む。
具体的には、選択されたテキスト情報に応じて応答するように選択信号を受信するステップは、各テキスト情報において選択されたテキストを取得するステップと、
選択されたテキスト情報を得るように選択されたテキストをプリセット規則に従ってソートするステップとを含む。
具体的には、少なくとも1つのテキスト情報を表示するステップは、同じ音声で認識された異なる単語又は文字を得るように、複数のテキスト情報を比較するステップと、最も高い重みスコアを有する単語又は文字を選択するように、単語又は文字の重みスコアをそれぞれ計算するステップと、最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するステップとを含む。
具体的には、少なくとも1つのテキスト情報を表示するステップは、強調表示された単語又は文字のためのトリガ信号を受信するステップと、トリガ信号に応じて、強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するステップと、選択信号を受信し、強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るステップとを更に含む。
具体的には、単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも1つの項目に基づいて、単語又は文字に対して重み処理が実行される。
本発明の実施形態は、音声処理装置を更に提供する。この音声処理装置は、音声情報を受信するための受信モジュールと、音声情報を複数のテキスト情報に変換するように音声情報を認識するための音声認識モジュールと、少なくとも1つのテキスト情報を表示するための表示モジュールと、選択されたテキスト情報に応じて応答するように、選択信号を受信するためのテキスト入力モジュールとを含む。
具体的には、テキスト入力モジュールは、各テキスト情報において選択されたテキストを取得するための取得ユニットと、選択されたテキスト情報を得るように、選択されたテキストをプリセット規則に従ってソートするための第1テキスト処理ユニットとを含む。
具体的には、表示モジュールは、同じ音声によって認識された異なる単語又は文字を得るように複数のテキスト情報を比較し、最も高い重みスコアを有する単語又は文字を選択するように単語又は文字の重みスコアをそれぞれ計算するための第2テキスト処理ユニットと、最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するための第1表示ユニットとを含む。
具体的には、テキスト入力モジュールは、強調表示された単語又は文字のためのトリガ信号を受信するための受信ユニットと、トリガ信号に応じて、強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するための第2表示ユニットと、選択信号を受信し、強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るための第3テキスト処理ユニットとを含む。
具体的には、単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも1つの項目に基づいて、単語又は文字に対して重み処理が実行される。
本発明の実施形態により提供される音声処理方法及び装置によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報におけるテキストをクリックすることによって選択及び確認することができるので、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性が向上し、ユーザーに優れた体験効果が提供される。
上記及び他の目的、特徴及び利点をより明確に理解させるために、好ましい態様を以下に例示し、そして図面を参照しながら詳細を以下に記載する。
端末の構造ブロック図を示す。 本発明の第1実施形態による音声処理方法のフローチャートである。 本発明の第2実施形態による音声処理方法のフローチャートである。 本発明の第3実施形態による音声処理方法のフローチャートである。 本発明の第4実施形態による音声処理装置の構造ブロック図である。 本発明の第5実施形態による音声処理装置の構造ブロック図である。 本発明の第6実施形態による音声処理装置の構造ブロック図である。
本発明の実施形態における添付の図面を参照しながら、本発明の実施形態における技術的解決策について、以下に説明する。明らかに、説明される実施形態は、本発明の一部に過ぎず、実施形態のすべてではない。本発明の実施形態に基づいて、創造的な作業を行うことなく当業者によって得られる全ての他の実施形態は、本発明の範囲内にある。
図1は、端末の構造ブロック図を示す。本発明は、図1に示されるような端末に適用できる音声処理方法及び装置を提供する。図1に示されるように、端末10は、メモリ102と、格納制御装置104と、1つ以上のプロセッサー106(図には1つのみ示されている)と、周辺インタフェース108と、無線周波数(RF)モジュール110と、測位モジュール112と、カメラモジュール114と、オーディオモジュール116と、画面118と、ボタンモジュール120とを含む。これらの構成要素は、1つ以上の通信バス/信号線122を介して、互いに通信する。
図1に示される構造は概略図にすぎないことが理解される。端末10は、図1に示されるものより多いか、又は少ない構成要素を含んでもよく、或いは、図1とは異なる構成を有してもよい。図1に示される各構成要素は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実施されてもよい。
メモリ102は、本発明の実施形態における音声処理方法及び装置に対応するプログラム指示/モジュールなどのソフトウエアプログラムやモジュールを格納するために使用されてもよい。プロセッサー106は、格納制御装置104に格納されたソフトウエアプログラム及びモジュールを実行することにより、様々な機能的アプリケーションやデータ処理を実行して、上記の音声処理方法及び装置を実現する。
メモリ102は、高速ランダムアクセスメモリを含んでもよく、また、1つ以上の磁気記憶装置、フラッシュメモリ又は他の不揮発性固体メモリなどの不揮発性メモリを更に含んでもよい。幾つかの例では、メモリ102は、プロセッサー106に対して遠隔に設けられ且つネットワークを介して端末10に接続され得るメモリを更に含んでもよい。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク(LAN)、移動通信ネットワーク及びそれらの組み合わせを含むが、それらに限定されない。メモリ102へのプロセッサー106及び別の可能な構成要素のアクセスは、格納制御装置104の制御下で実行されてもよい。
周辺インタフェース108は、様々な入力/出力装置をCPU及びメモリ102に結合する。プロセッサー106は、端末10の様々な機能及びデータ処理を実行するように、メモリ102内の様々なソフトウェア及び指示を実行する。
幾つかの実施形態では、周辺インタフェース108、プロセッサー106及び格納制御装置104は、単一のチップに実現され得る。他の実施形態では、それらは、別々のチップに実現することができる。
無線周波数モジュール110は、通信ネットワーク又は他の機器と通信するために電磁波と電気信号との相互変換を実現するように電磁波を受信及び伝送するために使用される。無線周波数モジュール110は、アンテナ、無線周波数トランシーバ、デジタル信号プロセッサー、暗号化/復号化チップ、加入者識別モジュール(SIM)カード、メモリなど、これらの機能を実行するための様々な既存の回路素子を含んでもよい。無線周波数モジュール110は、インターネット、イントラネット、無線ネットワークなどの様々なネットワークと通信してもよく、または無線ネットワークを介して他の機器と通信してもよい。上記の無線ネットワークは、セルラー電話ネットワーク、ワイヤレスローカルエリアネットワーク、又はメトロポリタンエリアネットワークを含み得る。上記の無線ネットワークは、様々な通信標準、プロトコル及び技術を使用してもよい。様々な通信標準、プロトコル及び技術は、グローバル移動通信システム(GSM(登録商標))、拡張データGSM環境(EDGE)、広帯域符号分割多元接続(W−CDMA)、符号分割接続(CDMA)、時分割多元接続(TDMA)、ブルートゥース(登録商標)、ワイヤレスフィデリティ(WiFi)(IEEE 802.11a、IEEE 802.11b、IEEE802.11g及び/又は IEEE 802.11nなど)、ボイスオーバインターネットプロトコル(VoIP)、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(Wi−Max)、その他のメール、インスタントメッセージ及びテキストメッセージングのためのプロトコル、任意の他の適切な通信プロトコル、さらに未だ開発されていないプロトコルを含むが、それらに限定されない。
測位モジュール112は、端末10の現在位置を取得するために使用される。測位モジュール112の例は、全地球測位システム(GPS)、及びワイヤレスローカルエリアネットワーク又は移動通信ネットワークに基づく測位技術を含むが、それらに限定されない。
カメラモジュール114は、写真又はビデオを撮るために使用される。取り込まれた写真又はビデオは、メモリ102に格納されてもよく、無線周波数モジュール110を介して伝送されてもよい。
オーディオモジュール116は、1つ以上のマイクロホン、1つ以上のラウドスピーカー、1つ以上のオーディオ回路を含み得るオーディオインタフェースをユーザーに提供する。オーディオ回路は、周辺インタフェース108から音データを受信し、音データを電気情報に変換し、電気情報をスピーカーに伝送する。ラウドスピーカーは、電気情報を人間の耳で聞くことができる音波に変換する。オーディオ回路はまた、マイクロホンから電気情報を受信し、電気信号を音データに変換し、更なる処理のために音データを周辺インタフェース108に伝送する。オーディオデータは、メモリ102から、又は無線周波数モジュール110を介して取得されてもよい。さらに、オーディオデータは、メモリ102に格納されてもよいし、又は無線周波数モジュール110を介して伝送されてもよい。幾つかの例では、オーディオモジュール116はまた、オーディオインタフェースをイヤホン又は他の装置に提供するためのイヤホンブロードキャストホールを含んでもよい。
画面118は、端末10とユーザーとの間の出力インタフェースを提供する。具体的には、画面118は、ビデオ出力をユーザーに提供する。ビデオ出力の内容は、テキスト、グラフィック、ビデオ、及びそれらの任意の組み合わせを含み得る。幾つかの出力結果は、幾つかのユーザーインタフェースオブジェクトに対応する。画面118はまたタッチ画面を含んでもよいことが理解される。ユーザーへのビデオ出力の表示に加えて、タッチ画面はまた、ユーザーインタフェースオブジェクトがユーザーの入力に応答するように、ユーザーのクリック、スライドなどのジェスチャのようなユーザー入力を受信する。ユーザー入力を検出する技術は、抵抗式、容量式、又は他の任意の可能なタッチ検出技術に基づいてもよい。タッチ画面表示ユニットの具体的な例は、液晶ディスプレイ又は発光ポリマーディスプレイを含むが、それらに限定されない。
ボタンモジュール120はまた、ユーザーが端末10に入力するためのインタフェースを提供する。ユーザーは、異なるボタンを押して、端末10に異なる機能を実行させることができる。
第1実施形態
図2は、本発明の第1実施形態による音声処理方法のフローチャートである。本実施形態は、音声処理装置により実行される音声処理方法である。図2に示されるように、本実施形態の音声処理方法は、以下のステップS11〜ステップS14を含み得る。
ステップS11では、音声情報を受信する。
具体的には、端末内で動作する音声処理装置は、マイクロホン又は他の音声入力装置を介してユーザーにより入力された音声情報を受信してもよい。端末は、パーソナルコンピューター、ノートブック型コンピューター、タブレットコンピューター、電子書籍、スマートフォン及びスマートウォッチなどの音声入力機能を有する電子機器であってもよい。端末は、電子書籍リーダー、動画専門家集団オーディオレイヤーIII又は動画像圧縮規格オーディオエキスパートレベル3(MP3)プレーヤー、動画専門家集団オーディオレイヤーIV又は動画像圧縮規格オーディオエキスパートレベル4(MP4)、ラップトップ型の携帯用のコンピューター及びデスクトップコンピューターであってもよい。当然のことながら、当業者であれば、第1端末内で動作する音声処理装置によって受信された音声情報はまた、第2端末から第1端末に伝送された音声情報、又は、ネットワークサーバを介して第1端末によってダウンロードされ一時的に格納された音声情報であってもよいが、それらに限定されないことを理解する。
ステップS12では、音声情報を複数のテキスト情報に変換するように音声情報を認識する。
具体的には、音声処理装置は、音声情報を受信した後、音声認識技術によって音声情報を認識して、音声情報を複数のテキスト情報に変換する。具体的に、一実施形態では、音声処理装置は、クラウドサーバーと通信する。音声処理装置は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置に直接格納されてもよいことを理解する。
ステップS13では、少なくとも1つのテキスト情報を表示する。
具体的には、音声処理装置は、表示モジュールを介して少なくとも1つのテキスト情報を表示する。一実施形態では、音声処理装置は、音声情報を変換して得られた全てのテキスト情報を表示するが、それらに限定されない。例えば、別の実施形態では、音声処理装置は、音声情報を変換して得られた複数のテキスト情報の中の1つのテキスト情報を表示してもよい。
ステップS14では、選択されたテキスト情報に応じて応答するように、選択信号を受信する。
具体的には、ユーザーは、テキスト情報をクリックするか、又はテキスト情報における単語又は文字をクリックすることによって選択を行い、選択されたテキスト情報を取得してもよい。それにより、ユーザーにより入力された情報は選択されたテキスト情報であることが確認されて(これに限定されない)、ユーザー入力がより便利になり、音声処理の精度の問題が解決され、ユーザー体験が改善される。
本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語(標準語や、広東語、北東部、四川省などの地元の方言)、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置は、受信された様々な言語の音声情報を認識することが可能になる。
本発明の実施形態により提供される音声処理方法によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報をクリックすることによって選択及び確認することができるので、選択されたテキスト情報は受信された音声情報と一致して、音声処理の精度及び利便性が向上し、ユーザーに優れた体験効果が提供される。
第2実施形態
図3は、本発明の第2実施形態による音声処理方法のフローチャートである。本実施形態は、音声処理装置により実行される音声処理方法である。図3に示されるように、本実施形態の音声処理方法は、以下のステップS21〜ステップS22を含み得る。
ステップS21では、各テキスト情報において選択されたテキストを取得する。
具体的に、本実施形態では、音声処理装置における表示モジュールは、複数のテキスト情報を同時に表示する。ユーザーは、音声処理装置に表示された各テキスト情報の中からユーザーのニーズに合ったテキストを選択することができる。音声処理装置は、ユーザーの選択に従って、各テキスト情報内の選択されたテキストを取得する。例えば、テキスト情報が、ユーザーにより入力された音声情報中の全ての正しい単語又は文字を既に含んでいる場合、ユーザーは、テキスト情報を連続して押してテキスト情報全体を取得することができるが、これに限定されない。
ステップS22では、選択されたテキスト情報を得るように、選択されたテキストをプリセット規則に従ってソートする。
具体的には、一実施形態では、音声処理装置は、時間規則に従って、選択されたテキストをソートして選択されたテキスト情報を取得してもよいが、これに限定されない。例えば、音声処理装置は、ユーザーがテキストを選択する時間順に従ってソートしてもよい。具体的には、最初に選択されたテキストがテキスト情報の前に置かれ、最後に選択されたテキストがテキスト情報の後に置かれる。それにより、ユーザーが必要とするテキスト情報を迅速かつ正確に取得するために、選択されたテキスト情報が形成される。
別の実施形態では、音声処理装置は、文法規則に従って、選択されたテキストをソートして、選択されたテキスト情報を取得してもよいが、これに限定されない。例えば、音声処理装置は、選択されたテキストの特徴、文法、及び音声情報中の文の文構造の予測に基づいて、選択されたテキストをテキスト情報内の異なる位置に挿入して、ユーザーが必要とするテキスト情報を迅速かつ正確に得るように、選択されたテキスト情報を形成する。
本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語(標準語や、広東語、北東部、四川省などの地元の方言)、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置は、受信された様々な言語の音声情報を認識することが可能になる。
音声処理装置は、クラウドサーバーと通信する。音声処理装置は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置に直接格納されてもよいことを理解する。
本発明の実施形態により提供される音声処理方法によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報におけるテキストをクリックすることによって選択及び確認することができる。選択されたテキスト情報を得るように選択されたテキストがソートされて、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。
第3実施形態
図4は、本発明の第3実施形態による音声処理方法のフローチャートである。本実施形態は、音声処理装置により実行される音声処理方法である。図4に示されるように、本実施形態の音声処理方法は、以下のステップS31〜ステップS36を含み得る。
ステップS31では、同じ音声で認識された異なる単語又は文字を得るように、複数のテキスト情報を比較する。
具体的に、本実施形態では、音声処理装置は、受信された音声情報を認識した後、クラウドサーバー内の大規模データベースから音声情報と一致するテキスト情報を取得する。音声情報中の記述が特徴に類似する単語又は文字の内容(異形同音異義語、同音異義語又は新たに作成された単語などの不確定な単語又は文字など)を含む場合、音声処理装置は複数のテキスト情報を取得する。音声処理装置は、複数のテキスト情報を比較して、各テキスト情報内の同じ音声によって認識された異なる単語又は文字を得る。例えば、音声処理装置は、受信された音声情報に基づいて音声認識を実行して、「彼が監督する(標準語で「zhidao」を発音)映画は、観客から良い反応(標準語で「fanying」を発音)を得る」、「彼がガイドする(標準語で「zhidao」を発音)映画は、観客から良い反響を得る」、及び「彼が監督する映画は、観客から良い反響(標準語で「fanying」を発音)を得る」などの複数のテキスト情報を得る。「監督」と「ガイド」は、同じ音声によって認識された2つの異なる単語であり、「反応」と「反響」は、同じ音声によって認識された2つの異なる単語であるが、これらに限定されない。
ステップS32では、最も高い重みスコアを有する単語又は文字を選択するように、単語又は文字の重みスコアをそれぞれ計算する。
単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも1つの項目に応じて、単語又は文字に対して重み処理が実行される。
具体的には、一実施形態では、別々の単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の1つ以上の項目に基づいて、重み処理が実行されるが、これに限定されない。例えば、他の実施形態では、他の条件を設定することによって重み処理を実行してもよい。具体的に、本実施形態では、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か、及び数であるか否かの中の各項目に重みスコアをプリセットすることができる。単語又は文字が1つ以上の上記項目と一致する場合、別々の重みスコアが単語又は文字に割り当てられ、単語又は文字の最終重みスコアを得るように加算処理が実行される。最終重みスコアは、重みスコアリストに記録される。具体的には、単語又は文字の重みスコアを更新するように、大規模データベース内の情報に従って単語又は文字の重みスコアを更新することができる。更新された単語又は文字の重みスコアは、重みスコアリストに記録される。
ステップS33では、最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示する。
具体的には、テキスト情報中の単語又は文字の重みスコアが、複数のテキスト情報における同じ音声によってそれぞれ認識された単語又は文字の重みスコアより高い場合、音声処理装置は、その単語又は文字を含むテキスト情報を表示する。同時に、同じ音声によって認識された単語又は文字の中で最も高い重みスコアを有する単語又は文字が強調表示される。
ステップS34では、強調表示された単語又は文字のためのトリガ信号を受信する。
具体的には、一実施形態では、ユーザーが強調表示された単語又は文字に満足していない場合、ユーザーは、強調表示された単語又は文字をクリック又は押すことでトリガ信号を生成してもよい。音声処理装置は、ユーザーが強調表示された単語又は文字をクリック又は押すことを検出すると、トリガ信号を受信する。
ステップS35では、トリガ信号に応じて強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示する。
具体的には、ユーザーが所望の単語又は文字を選択するために、音声処理装置は、トリガ信号に従って、トリガされた単語又は文字に対して、プルダウンメニューに複数の単語又は文字を表示する。
ステップS36では、選択信号を受信し、強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得る。
具体的には、音声処理装置は、選択されたテキスト情報が受信された音声情報によって表される意味と一致するように、受信された選択信号に従って、強調表示された単語又は文字を選択された単語又は文字に置換する。
具体的には、一実施形態では、音声処理装置は、受信された音声情報に基づいて音声認識を実行して、「彼が監督する(標準語で「zhidao」を発音)映画は、観客から良い反応(標準語で「fanying」を発音)を得る」、「彼がガイドする(標準語で「zhidao」を発音)映画は、観客から良い反響を得る」、及び「彼が監督する映画は、観客から良い反響(標準語で「fanying」を発音)を得る」などの複数のテキスト情報を得る。「監督」と「ガイド」は、同じ音声によって認識された2つの異なる単語であり、「反応」と「反響」は、同じ音声によって認識された2つの異なる単語である。音声処理装置は、「監督」と「ガイド」を計算して分析した後、「ガイド」の重みスコアが「監督」の重みスコアより高いことを得て、「反応」と「反響」を計算して分析した後、「反応」の重みスコアが「反響」より高いことを得る。音声処理装置は、最も高い重みスコアを有する「ガイド」と「反響」の2つの単語を選択して、全ての最も高い重みスコアを有する単語又は文字を含有する「彼がガイドする映画は、観客から良い反応を得る」というテキスト情報を得る。音声処理装置は、「彼がガイドする映画は、観客から良い反応を得る」を表示し、「ガイド」と「反応」を強調表示する。ユーザーが、テキスト情報を見た後に「ガイド」が音声情報に表される意味に一致しないと感じた場合、ユーザーは「ガイド」をクリックして音声処理装置にトリガ信号を送信してもよい。音声処理装置は、トリガ信号に応じて、ユーザーが選択し置換するように、音声中の「ガイド」と同じである複数の単語又は文字、例えば、「監督」、「知る」(標準語で「zhidao」を発音)、「の道」(標準語で「zhidao」を発音)、「〜にしか」(標準語で「zhidao」を発音)を表示する。ユーザーが「監督」を選択した後、音声処理装置は、テキスト情報内の「ガイド」を「監督」に置換し、「彼が監督する映画は、観客からよい反応を得る」という選択されたテキスト情報を得るが、これに限定されない。
本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語(標準語や、広東語、北東部、四川省などの地元の方言)、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置は、受信された様々な言語の音声情報を認識することが可能になる。
音声処理装置は、クラウドサーバーと通信する。音声処理装置は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置に直接格納されてもよいことを理解する。
本発明の実施形態により提供される音声処理方法によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報における単語又は文字をクリックすることによって選択及び置換し、選択されたテキスト情報を得ることができるので、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。
第4実施形態
図5は、本発明の第4実施形態による音声処理装置40の構造ブロック図である。本実施形態によって提供される音声処理装置40は、 第1実施形態において提供される音声処理方法を実現するように使用され得る。図5に示されるように、音声処理装置40は、受信モジュール42、音声認識モジュール44、表示モジュール46及びテキスト入力モジュール48を含む。
受信モジュール42は、音声情報を受信するために使用される。
音声認識モジュール44は、音声情報を複数のテキスト情報に変換するように音声情報を認識するために使用される。
表示モジュール46は、少なくとも1つのテキスト情報を表示するために使用される。
テキスト入力モジュール48は、選択されたテキスト情報に応じて応答するように、選択信号を受信するためのものである。
本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語(標準語や、広東語、北東部、四川省などの地元の方言)、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置40は、受信された様々な言語の音声情報を認識することが可能になる。
音声処理装置40の音声認識モジュール44は、クラウドサーバーと通信する。音声処理装置40は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。具体的には、大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置40に直接格納されてもよいことを理解する。
前述のモジュールのそれぞれはソフトウェアコードによって実現されてもよく、モジュールのそれぞれはメモリに格納されてもよい。前述のモジュールのそれぞれは、集積回路チップなどのハードウェアによって実現されてもよい。
本実施形態の音声処理装置40における各機能ユニットの具体的な機能については、上記図1〜図4に示されている実施形態で説明した具体的な説明を参照することとし、重複する詳細な説明を省略する。
本発明の実施形態により提供される音声処理装置40によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報におけるテキストをクリックすることによって選択及び確認することができる。選択されたテキスト情報を得るように選択されたテキストがソートされて、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。
第5実施形態
図6は、本発明の第5実施形態による音声処理装置50の構造ブロック図である。本実施形態によって提供される音声処理装置50は、第2実施形態において提供される音声処理方法を実現するように使用され得る。図6に示されるように、音声処理装置50は、受信モジュール52、音声認識モジュール54、表示モジュール56及びテキスト入力モジュール58を含む。テキスト入力モジュール58は、取得ユニット581及び第1テキスト処理ユニット582を含む。
受信モジュール52は、音声情報を受信するために使用される。音声認識モジュール54は、音声情報を複数のテキスト情報に変換するように音声情報を認識するために使用される。表示モジュール56は、少なくとも1つのテキスト情報を表示するために使用される。テキスト入力モジュール58は、選択されたテキスト情報に応じて応答するように選択信号を受信するために使用される。
取得ユニット581は、各テキスト情報において選択されたテキストを取得するために使用される。
第1テキスト処理ユニット582は、選択されたテキスト情報を得るように、選択されたテキストをプリセット規則に従ってソートするために使用される。
本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語(標準語や、広東語、北東部、四川省などの地元の方言)、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置50は、受信された様々な言語の音声情報を認識することが可能になる。
音声処理装置50の音声認識モジュール54は、クラウドサーバーと通信する。音声処理装置50は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。具体的には、大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置50に直接格納されてもよいことを理解する。
前述のモジュールのそれぞれはソフトウェアコードによって実現されてもよく、モジュールのそれぞれはメモリに格納されてもよい。前述のモジュールのそれぞれは、集積回路チップなどのハードウェアによって実現されてもよい。
本実施形態の音声処理装置50における各機能ユニットの具体的な機能については、上記図1〜図5に示されている実施形態で説明した具体的な説明を参照することとし、重複する詳細な説明を省略する。
本発明の実施形態により提供される音声処理装置50によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報におけるテキストをクリックすることによって選択及び確認することができる。選択されたテキスト情報を得るように選択されたテキストがソートされて、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。
第6実施形態
図7は、本発明の第6実施形態による音声処理装置60の構造ブロック図である。本実施形態によって提供される音声処理装置60は、第3実施形態において提供される音声処理方法を実現するように使用され得る。図7に示されるように、音声処理装置60は、受信モジュール62、音声認識モジュール64、表示モジュール66及びテキスト入力モジュール68を含む。表示モジュール66は、第2テキスト処理ユニット661及び第1表示ユニット662を含む。テキスト入力モジュール68は、受信ユニット681、第2表示ユニット682及び第3テキスト処理ユニット683を含む。
受信モジュール62は、音声情報を受信するために使用される。音声認識モジュール64は、音声情報を複数のテキスト情報に変換するように音声情報を認識するために使用される。表示モジュール66は、少なくとも1つのテキスト情報を表示するために使用される。テキスト入力モジュール68は、選択されたテキスト情報に応じて応答するように選択信号を受信するために使用される。
第2テキスト処理ユニット661は、同じ音声によって認識された異なる単語又は文字を得るように複数のテキスト情報を比較し、最も高い重みスコアを有する単語又は文字を選択するように単語又は文字の重みスコアをそれぞれ計算するために使用される。
具体的に、本実施形態では、音声処理装置60は、受信された音声情報を認識した後、クラウドサーバー内の大規模データベースから音声情報と一致するテキスト情報を取得する。音声情報中の記述が特徴に類似する単語又は文字の内容(異形同音異義語、同音異義語又は新たに作成された単語などの不確定な単語又は文字など)を含む場合、音声処理装置60は複数のテキスト情報を取得する。音声処理装置60は、各テキスト情報内の同じ音声によって認識された異なる単語又は文字を得るように、複数のテキスト情報を比較し、全ての単語又は文字に対して重み処理を行い、各単語又は文字の重みスコアリストを取得して重みスコアリストを格納する。
具体的には、一実施形態では、別々の単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも1つの項目に基づいて、重み処理が実行されるが、これに限定されない。例えば、他の実施形態では、他の条件を設定することによって重み処理を実行してもよい。具体的に、本実施形態では、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か、及び数であるか否かの中の各項目に重みスコアをプリセットすることができる。単語又は文字が1つ以上の上記項目と一致する場合、別々の重みスコアが単語又は文字に割り当てられ、単語又は文字の最終重みスコアを得るように加算処理が実行される。最終重みスコアは、重みスコアリストに記録される。具体的には、単語又は文字の重みスコアを更新するように、大規模データベース内の情報に従って単語又は文字の重みスコアを更新することができる。更新された単語又は文字の重みスコアは、重みスコアリストに記録される。
第1表示ユニット662は、最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するために使用される。
受信ユニット681は、強調表示された単語又は文字のためのトリガ信号を受信するために使用される。
第2表示ユニット682は、トリガ信号に応じて強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するために使用される。
第3テキスト処理ユニット683は、選択信号を受信し、強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るために使用される。
本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語(標準語や、広東語、北東部、四川省などの地元の方言)、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置60は、受信された様々な言語の音声情報を認識することが可能になる。
音声処理装置60の音声認識モジュール64は、クラウドサーバーと通信する。音声処理装置60は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。具体的には、大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置60に直接格納されてもよいことを理解する。
前述のモジュールのそれぞれはソフトウェアコードによって実現されてもよく、モジュールのそれぞれはメモリに格納されてもよい。前述のモジュールのそれぞれは、集積回路チップなどのハードウェアによって実現されてもよい。
本実施形態の音声処理装置60における各機能ユニットの具体的な機能については、上記図1〜図6に示されている実施形態で説明した具体的な説明を参照することとし、重複する詳細な説明を省略する。
本発明の実施形態により提供される音声処理装置60によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報における単語又は文字をクリックすることによって選択及び置換し、選択されたテキスト情報を得ることができるので、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。
本明細書における各実施形態は漸進的に記載されていることに留意されたい。各実施形態は他の実施形態との相違点に焦点を合わせており、様々な実施形態間の同じ又は類似の部分は互いに参照され得る。装置の実施形態については、対応する方法の実施形態と実質的に同様であるので、説明は比較的単純であり、関連部分は方法の実施形態の一部で説明される。
なお、本明細書では、第1及び第2の用語などの関係用語は、エンティティ又は操作間のそのような実際の関係又は順序を必ずしも要求又は暗示することなく、単にエンティティ又は操作を別のエンティティ又は操作から区別するために使用される。さらに、「含む(include)」、「含む(comprise)」という用語又はそれらの他の変形は、一連の要素を含むプロセス、方法、物品又は装置がそれらの要素だけでなく、明示的に列挙されていない要素又はそのようなプロセス、方法、物品又は装置に固有の他の要素も含むように非排他的な包含を含むことを意図する。更なる制限がない場合、「〜を含む(including a ...)」という文によって定義される要素は、その要素を含むプロセス、方法、物品又は装置における更なる要素の存在を排除するものではない。
一般的な技術者は、実施形態のステップの全部又は一部をハードウェアによって達成することができ、又はプログラムによって関連ハードウェアを指示することによって達成することができる。プログラムは、コンピューター可読記憶媒体に格納されてもよく、記憶媒体は、読み出し専用メモリ、ディスク又はCDなどであってもよい。
上記は本発明の好ましい実施形態にすぎず、本発明の形態を限定するものではない。本発明を好ましい実施形態を参照して説明したが、本発明を限定することを意図するものではない。当業者であれば、本発明の技術的解決策の範囲から逸脱することなく、上記に開示された技術内容を使用することにより、同等の変形の同等の実施形態としてわずかな変更又は修正を行うことができる。本発明の技術的解決策の範囲から逸脱することなく、本発明の技術的詳細に従って上記の実施形態に対して任意の単純な修正、同等の変形及び修正を行うことは、依然として本発明の技術的解決策の範囲内である。

Claims (12)

  1. プロセッサーによる音声処理方法であって、前記方法は、
    音声情報を受信するステップと、
    前記音声情報を複数のテキスト情報に変換するように、前記音声情報を認識するステップと、
    少なくとも1つの前記テキスト情報を表示するステップと、
    選択されたテキスト情報に応じて応答するように、選択信号を受信するステップとを含み、
    選択されたテキスト情報に応じて応答するように、選択信号を受信する前記ステップは、
    前記テキスト情報において選択されたテキストを取得するステップと、
    選択されたテキスト情報を得るように、前記選択されたテキストをプリセット規則に従ってソートするステップとを含む、ことを特徴とする音声処理方法。
  2. 少なくとも1つの前記テキスト情報を表示する前記ステップは、
    同じ音声で認識された異なる単語又は文字を得るように、複数のテキスト情報を比較するステップと、
    最も高い重みスコアを有する単語又は文字を選択するように、単語又は文字の重みスコアをそれぞれ計算するステップと、
    最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するステップとを含む、ことを特徴とする請求項1に記載の方法。
  3. 少なくとも1つの前記テキスト情報を表示する前記ステップは、
    強調表示された単語又は文字のためのトリガ信号を受信するステップと、
    前記トリガ信号に応じて、前記強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するステップと、
    前記選択信号を受信し、前記強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るステップとを更に含む、ことを特徴とする請求項に記載の方法。
  4. 単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも1つの項目に基づいて、単語又は文字に対して重み処理を実行する、ことを特徴とする請求項に記載の方法。
  5. 音声処理装置であって、前記装置は、
    音声情報を受信するための受信モジュールと、
    前記音声情報を複数のテキスト情報に変換するように前記音声情報を認識するための音声認識モジュールと、
    少なくとも1つの前記テキスト情報を表示するための表示モジュールと、
    選択されたテキスト情報に応じて応答するように、選択信号を受信するためのテキスト入力モジュールとを含み、
    前記テキスト入力モジュールは、
    前記テキスト情報において選択されたテキストを取得するための取得ユニットと、
    選択されたテキスト情報を得るように、前記選択されたテキストをプリセット規則に従ってソートするための第1テキスト処理ユニットとを含む、ことを特徴とする音声処理装置。
  6. 前記表示モジュールは、
    同じ音声によって認識された異なる単語又は文字を得るように複数のテキスト情報を比較し、最も高い重みスコアを有する単語又は文字を選択するように単語又は文字の重みスコアをそれぞれ計算するための第2テキスト処理ユニットと、
    最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するための第1表示ユニットとを含む、ことを特徴とする請求項に記載の音声処理装置。
  7. 前記テキスト入力モジュールは、
    強調表示された単語又は文字のためのトリガ信号を受信するための受信ユニットと、
    前記トリガ信号に応じて、前記強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するための第2表示ユニットと、
    前記選択信号を受信し、前記強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るための第3テキスト処理ユニットとを含む、ことを特徴とする請求項に記載の音声処理装置。
  8. 単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも1つの項目に基づいて、単語又は文字に対して重み処理を実行する、ことを特徴とする請求項に記載の音声処理装置。
  9. 端末であって、
    プロセッサーと、
    前記プロセッサーと通信可能に接続され、前記プロセッサーによって実行されると前記端末に、
    音声情報を受信すること、
    前記音声情報を複数のテキスト情報に変換するように、前記音声情報を認識すること、
    少なくとも1つの前記テキスト情報を表示すること、及び
    選択されたテキスト情報に応じて応答するように、選択信号を受信することを実行させるためのソフトウェアプログラムを格納した前記プロセッサー読み取り可能なメモリとを含み、
    前記メモリは、前記プロセッサーによって実行されると前記端末に、
    前記テキスト情報において選択されたテキストを取得すること、及び
    選択されたテキスト情報を得るように、前記選択されたテキストをプリセット規則に従ってソートすることを行わせる指示を更に格納する、ことを特徴とする端末。
  10. 前記メモリは、前記プロセッサーによって実行されると前記端末に、
    同じ音声で認識された異なる単語又は文字を得るように、複数のテキスト情報を比較すること、
    最も高い重みスコアを有する単語又は文字を選択するように、単語又は文字の重みスコアをそれぞれ計算すること、及び
    最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示することを行わせる指示を更に格納する、ことを特徴とする請求項に記載の端末。
  11. 前記メモリは、前記プロセッサーによって実行されると前記端末に、
    強調表示された単語又は文字のためのトリガ信号を受信すること、
    前記トリガ信号に応じて、前記強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示すること、及び
    前記選択信号を受信し、前記強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得ることを行わせる指示を更に格納する、ことを特徴とする請求項10に記載の端末。
  12. 単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも1つの項目に基づいて、単語又は文字に対して重み処理を実行する、ことを特徴とする請求項10に記載の端末。
JP2018567843A 2016-09-22 2017-09-20 音声処理方法及び装置 Active JP6618223B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610841160.8 2016-09-22
CN201610841160.8A CN106251869B (zh) 2016-09-22 2016-09-22 语音处理方法及装置
PCT/CN2017/102502 WO2018054309A1 (en) 2016-09-22 2017-09-20 Speech processing method and device

Publications (2)

Publication Number Publication Date
JP2019532318A JP2019532318A (ja) 2019-11-07
JP6618223B2 true JP6618223B2 (ja) 2019-12-11

Family

ID=57600106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018567843A Active JP6618223B2 (ja) 2016-09-22 2017-09-20 音声処理方法及び装置

Country Status (5)

Country Link
US (1) US11011170B2 (ja)
EP (1) EP3497696A4 (ja)
JP (1) JP6618223B2 (ja)
CN (1) CN106251869B (ja)
WO (1) WO2018054309A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106251869B (zh) * 2016-09-22 2020-07-24 浙江吉利控股集团有限公司 语音处理方法及装置
DK201770411A1 (en) * 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
EP3567471A4 (en) * 2017-11-15 2020-02-19 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
CN108573707B (zh) * 2017-12-27 2020-11-03 北京金山云网络技术有限公司 一种语音识别结果的处理方法、装置、设备及介质
CN110109607B (zh) * 2019-05-10 2021-07-27 网易(杭州)网络有限公司 信息处理方法及装置、电子设备和存储介质
CN110164020A (zh) * 2019-05-24 2019-08-23 北京达佳互联信息技术有限公司 投票创建方法、装置、计算机设备及计算机可读存储介质
CN110544471A (zh) * 2019-09-09 2019-12-06 扬州莱诺汽车科技有限公司 一种车载电器智能控制装置
US11527234B2 (en) * 2019-10-01 2022-12-13 Rovi Guides, Inc. Method and apparatus for generating hint words for automated speech recognition
CN111081248A (zh) * 2019-12-27 2020-04-28 安徽仁昊智能科技有限公司 一种人工智能语音识别装置
CN114084067B (zh) * 2021-11-24 2023-11-14 浙江极氪智能科技有限公司 车外主动发音和灯语联动系统以及方法
CN114945103B (zh) * 2022-05-13 2023-07-18 深圳创维-Rgb电子有限公司 语音交互系统及语音交互方法
CN117334198B (zh) * 2023-09-14 2024-04-30 中关村科学城城市大脑股份有限公司 语音信号处理方法、装置、电子设备和计算机可读介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6184771A (ja) 1984-10-03 1986-04-30 Hitachi Ltd 音声入力装置
JP3055514B2 (ja) 1997-12-05 2000-06-26 日本電気株式会社 電話回線用音声認識装置
JP3948260B2 (ja) * 2000-11-22 2007-07-25 松下電器産業株式会社 テキスト入力方法及びその装置
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
JP3762300B2 (ja) 2001-12-28 2006-04-05 株式会社東芝 テキスト入力処理装置及び方法並びにプログラム
US8095364B2 (en) * 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
JP4604178B2 (ja) 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
JP5259050B2 (ja) * 2005-03-30 2013-08-07 京セラ株式会社 音声合成機能付き文字情報表示装置、およびその音声合成方法、並びに音声合成プログラム
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8782556B2 (en) * 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies
CN102158664A (zh) * 2011-03-31 2011-08-17 四川长虹电器股份有限公司 利用移动终端进行语音控制电视机的方法
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
CN102867511A (zh) * 2011-07-04 2013-01-09 余喆 自然语音识别方法和装置
CN103531197A (zh) 2013-10-11 2014-01-22 安徽科大讯飞信息科技股份有限公司 一种对用户语音识别结果反馈的命令词识别自适应优化方法
CN103645876B (zh) * 2013-12-06 2017-01-18 百度在线网络技术(北京)有限公司 语音输入方法和装置
CN103677729B (zh) * 2013-12-18 2017-02-08 北京搜狗科技发展有限公司 一种语音输入方法和系统
US10037758B2 (en) 2014-03-31 2018-07-31 Mitsubishi Electric Corporation Device and method for understanding user intent
CN103956169B (zh) * 2014-04-17 2017-07-21 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统
CN105096953B (zh) * 2015-08-11 2019-03-12 东莞市凡豆信息科技有限公司 实现多语种混合使用的语音识别方法
CN105446495A (zh) * 2015-12-08 2016-03-30 北京搜狗科技发展有限公司 一种候选排序方法和装置
US10388274B1 (en) * 2016-03-31 2019-08-20 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN107342075A (zh) * 2016-07-22 2017-11-10 江苏泰格软件有限公司 一种语音控制执行aps系统指令的系统与方法
CN106251869B (zh) 2016-09-22 2020-07-24 浙江吉利控股集团有限公司 语音处理方法及装置
US10504512B1 (en) * 2017-09-22 2019-12-10 Amazon Technologies, Inc. Natural language speech processing application selection

Also Published As

Publication number Publication date
EP3497696A1 (en) 2019-06-19
WO2018054309A1 (en) 2018-03-29
EP3497696A4 (en) 2019-08-14
JP2019532318A (ja) 2019-11-07
CN106251869B (zh) 2020-07-24
US11011170B2 (en) 2021-05-18
US20190251972A1 (en) 2019-08-15
CN106251869A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
JP6618223B2 (ja) 音声処理方法及び装置
US11676578B2 (en) Information processing device, information processing method, and program
US9930167B2 (en) Messaging application with in-application search functionality
CN105592343B (zh) 针对问题和回答的显示装置和方法
US10122839B1 (en) Techniques for enhancing content on a mobile device
US10191716B2 (en) Method and apparatus for recognizing voice in portable device
JP2016522483A (ja) ページロールバック制御方法、ページロールバック制御装置、端末、プログラム及び記録媒体
US20150082256A1 (en) Apparatus and method for display images
CN110827826B (zh) 语音转换文字方法、电子设备
CN109240785B (zh) 一种设置语言的方法、终端及存储介质
CN106406675A (zh) 运行应用程序的快捷方法及终端设备
CN105139848B (zh) 数据转换方法和装置
CN105095253B (zh) 网页显示方法及装置
JP2014049140A (ja) 使用者デバイスで入力文字を利用した知能型サービス提供方法及び装置
KR20170000722A (ko) 전자기기 및 그의 음성 인식 방법
CN110827825A (zh) 语音识别文本的标点预测方法、系统、终端及存储介质
JP2017505962A (ja) 情報選択方法及び装置
CN108829686A (zh) 翻译信息显示方法、装置、设备及存储介质
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
CN111061452A (zh) 用户界面的语音控制方法和装置
US20230177265A1 (en) Electronic apparatus recommending content-based search terms and control method thereof
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
US12125475B2 (en) Information processing device, information processing method, and program
US20160124921A1 (en) Method and device for selecting information
CN111026474A (zh) 界面控制方法、终端及计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190222

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190222

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190702

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191111

R150 Certificate of patent or registration of utility model

Ref document number: 6618223

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250