JP2021099887A - 音声認識によるページ操作方法、装置、機器、媒体及びプログラム - Google Patents

音声認識によるページ操作方法、装置、機器、媒体及びプログラム Download PDF

Info

Publication number
JP2021099887A
JP2021099887A JP2021046331A JP2021046331A JP2021099887A JP 2021099887 A JP2021099887 A JP 2021099887A JP 2021046331 A JP2021046331 A JP 2021046331A JP 2021046331 A JP2021046331 A JP 2021046331A JP 2021099887 A JP2021099887 A JP 2021099887A
Authority
JP
Japan
Prior art keywords
control element
recognition result
voice recognition
pinyin
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021046331A
Other languages
English (en)
Other versions
JP7242737B2 (ja
Inventor
偉 向
Wei Xiang
偉 向
峻華 許
Junhua Xu
峻華 許
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021099887A publication Critical patent/JP2021099887A/ja
Application granted granted Critical
Publication of JP7242737B2 publication Critical patent/JP7242737B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Abstract

【課題】音声認識、音声インタラクティブ、クラウドコンピューティングなどの分野における音声認識によるページ操作方法、装置、電子機器、媒体及びプログラムを提供する。【解決手段】音声認識による、少なくとも1つの制御エレメントを含むページの操作方法であって、受信した音声を認識して、音声認識結果を得ることS210と、制御エレメント毎に設置された中国語形式の文字的記述を取得することS220と、少なくとも1つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定することS230と、目標制御エレメントに関連する制御操作を実行して音声認識結果を表示し、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合は、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示することS240と、を含む。【選択図】図2

Description

本願は、自然言語処理の分野に関し、具体的には、音声認識、音声インタラクティブ、クラウドコンピューティングの分野に関し、より具体的には、音声認識によるページ操作方法、装置、機器及び媒体に関する。
ページ上の制御エレメントに対して制御操作を行う時、ユーザが、ページ上の制御エレメントを直接にクリックすることで、又は音声によって、ページ上の制御エレメントを制御操作することができる。しかし、関連技術では、音声によってページ上の制御エレメントを制御操作する時、音声認識結果のエラーによって認識率が低いという問題が存在し、ユーザの使用エクスペリエンスを低減する。
本願は、音声認識によるページ操作装置の方法、装置、機器、記憶媒体及びプログラムを提供する。
第1の局面によれば、本願は、音声認識によるページ操作方法を提供しており、前記ページは、少なくとも1つの制御エレメントを含み、前記方法は、受信した音声を認識して、音声認識結果を得ることと、制御エレメント毎に設置された中国語形式の文字的記述を取得することと、前記少なくとも1つの制御エレメントから、文字的記述のピンインが前記音声認識結果のピンインとマッチした目標制御エレメントを特定することと、前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、ただし、前記音声認識結果と前記目標制御エレメントの文字的記述とがマッチしない場合、前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示することと、を含む。
第2の局面によれば、本願は、音声認識によるページ操作装置を提供しており、前記ページは、少なくとも1つの制御エレメントを含み、前記装置は、認識モジュールと、取得モジュールと、特定モジュールと、表示モジュールとを含む。その中で、認識モジュールは、受信した音声を認識して、音声認識結果を得るためのものであり、取得モジュールは、制御エレメント毎に設置された中国語形式の文字的記述を取得するためのものであり、特定モジュールは、前記少なくとも1つの制御エレメントから、文字的記述のピンインが前記音声認識結果のピンインとマッチした目標制御エレメントを特定するためのものであり、表示モジュールは、前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、ただし、前記音声認識結果と前記目標制御エレメントの文字的記述とがマッチしない場合、前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示するためのものである。
第3の局面によれば、本願は、電子機器を提供しており、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続するメモリとを含む。その中で、前記メモリは、前記少なくとも1つのプロセッサによって実行され得る命令を記憶しており、前記命令が前記少なくとも1つのプロセッサによって実行されることによって、前記少なくとも1つのプロセッサが上述したような方法を実行することができる。
第4の局面によれば、本願は、前記コンピュータに上述したような方法を実行させるためのコンピュータ命令を記憶している不揮発性のコンピュータ読取可能な記憶媒体を提供する。
第5の局面によれば、本願は、コンピュータプログラムを提供し、実行される際に、上記方法を実現するコンピュータ実行可能な命令を含む。
この部分で説明した内容は、本願の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本願の範囲を限定するためのものでもない。本願の他の特徴は、以下の明細書によって理解し易くなるであろう。
図面は、本方案がよりよく理解されるためのものであり、本願に対する限定を構成しない。
図1は、本願の実施例による音声認識によるページ操作の適用場面を模式的に示している。 図2は、本願の一実施例による音声認識によるページ操作方法のフローチャートを模式的に示している。 図3は、本願の実施例による目標制御エレメントを特定するフローチャートを模式的に示している。 図4は、本願の一実施例による音声認識結果を置き換える模式図を模式的に示している。 図5は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。 図6は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。 図7は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。 図8は、本願の別の実施例による音声認識によるページ操作方法のフローチャートを模式的に示している。 図9は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。 図10は、本願の一実施例によるページ模式図を模式的に示している。 図11は、本願の別の実施例によるページ模式図を模式的に示している。 図12は、本願の実施例による音声認識によるページ操作装置のブロック図を模式的に示している。 図13は、本願の実施例の音声認識によるページ操作方法を実現するための電子機器のブロック図である。
以下、本願の例示的な実施例について図面を参照しながら説明する。その中で、理解の便宜のため本願の実施例の各詳細を含むが、これらはあくまで例示的なものであることを理解すべきである。そのため、当業者は、本願の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることを理解すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。
ここで使用した用語は、単に具体的な実施例を説明するためのものであって、本願を限定することを意図しない。ここで使用した用語「備える」、「含む」などは、前記特徴、ステップ、操作及び/又は部品の存在を表すが、1つ又は複数の他の特徴、ステップ、操作又は部品の存在や、追加を除外しない。
ここで使用される全ての用語(技術的及び科学的用語を含む)は、別途定義されない限り、当業者によって一般的に理解される意味を有する。ここで使用される用語は、本明細書の文脈と一致する意味を有すると解釈されるべきであり、理想的または過度に形式的に解釈されるべきではないことに留意されたい。
「A、B及びCなどのうちの少なくとも1つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである(例えば、「A、B及びCのうちの少なくとも1つを有するシステム」は、Aを単独で有するシステム、Bを単独で有するシステム、Cを単独で有するシステム、A及びBを有するシステム、A及びCを有するシステム、B及びCを有するシステム、及び/又はA、B、Cを有するシステムなどを含むが、これらに限定されない)。
本願の実施例は、音声認識によるページ操作方法を提供し、ページは少なくとも1つの制御エレメントを含み、この方法は、受信した音声を認識して音声認識結果を得ることと、制御エレメント毎に設置された中国語形式の文字的記述を取得することと、少なくとも1つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定することと、目標制御エレメントに関連する制御操作を実行して音声認識結果を表示し、ただし、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示することを含む。
図1は、本願の実施例による音声認識によるページ操作の適用場面を模式的に示している。
図1に示すように、本願の実施例の適用場面100は、例えばページ110を含む。ページ110は、電子機器上に表示されたページであってよい。電子機器は、スマートフォン、コンピュータ、スマートスピーカーを含んでもよいが、これらに限られない。
ページ110上には、例えば、複数の制御エレメントが表示されている。電子機器は、ユーザの制御エレメントに対するクリック操作又はタッチ操作に応じて制御エレメントに関連する制御操作を実行してもよい。クリック操作は、例えば入力デバイスによって実施してもよく、入力デバイスはマウスであってもよい。電子機器がタッチスクリーンを含む場合、タッチ操作は、例えばユーザの指によって実施されてもよい。
1つの例示において、制御エレメントは、文字又はピクチャであってもよい。例えば、制御エレメント111、112、113は文字であり、制御エレメント114、115はピクチャである。ユーザは、各制御エレメントをクリック又はタッチしてもよく、電子機器は、ユーザのクリック又はタッチに応じて制御エレメントに関連する制御操作を実行してもよい。
例えば、制御エレメント111は文字「映画」であり、制御エレメント112は文字「ドラマ」であり、制御エレメント113は文字「ドキュメンタリー」であり、制御エレメント114はある映画(例えば、映画「ヒーロー」)のピクチャであり、制御エレメント115はあるドラマ(例えば、ドラマ「西遊記」)のピクチャであってもよい。
ユーザが制御エレメント111をクリック又はタッチした時、電子機器は、ユーザの制御エレメント111に対するクリック操作又はタッチ操作に応じて、ユーザに映画リストを推奨してもよい。ユーザが制御エレメント112をクリック又はタッチした時、電子機器は、ユーザの制御エレメント112に対するクリック操作又はタッチ操作に応じて、ユーザにドラマリストを推奨してもよい。ユーザが制御エレメント113をクリック又はタッチした時、電子機器は、ユーザの制御エレメント113に対するクリック操作又はタッチ操作に応じて、ユーザにドキュメンタリーリストを推奨してもよい。ユーザが制御エレメント114をクリック又はタッチした時、電子機器は、ユーザの制御エレメント114に対するクリック操作又はタッチ操作に応じて、ユーザに映画「ヒーロー」を再生してもよく、ユーザが制御エレメント115をクリック又はタッチした時、電子機器は、ユーザの制御エレメント115に対するクリック操作又はタッチ操作に応じて、ユーザにドラマ「西遊記」を再生してもよい。
別の実施例において、ユーザは、音声インタラクティブの方式によって各制御エレメントについて操作してもよい。例えば、ユーザが映画の再生リストを見る必要がある時、ユーザが音声「映画」を発してもよく、電子機器がユーザの音声「映画」に応じて制御エレメント111に関連する制御操作を実行してユーザに映画リストを推奨する。ユーザがドラマの再生リストを見る必要がある時、ユーザが音声「ドラマ」を発してもよく、電子機器がユーザの音声「ドラマ」に応じて制御エレメント112に関連する制御操作を実行してユーザにドラマリストを推奨する。ユーザがドキュメンタリーのリストを見る必要がある時、ユーザが音声「ドキュメンタリー」を発してもよく、電子機器がユーザの音声「ドキュメンタリー」に応じて制御エレメント113に関連する制御操作を実行してユーザにドキュメンタリーリストを推奨する。ユーザが映画「ヒーロー」を見る必要がある時、ユーザが音声「ヒーロー」を発してもよく、電子機器がユーザの音声「ヒーロー」に応じて制御エレメント114に関連する制御操作を実行してユーザに映画「ヒーロー」を再生する。ユーザがドラマ「西遊記」を見る必要がある時、ユーザが音声「西遊記」を発してもよく、電子機器がユーザの音声「西遊記」に応じて制御エレメント115に関連する制御操作を実行してユーザにドラマ「西遊記」を再生する。
本願の実施例によれば、音声によってページ上の制御エレメントについて操作し、ページに対するユーザによる操作の効率を向上した。なお、音声インタラクティブの方式によってページを操作し、ページ操作の煩雑さを低減して、ユーザの使用エクスペリエンスを向上したことを実現した。
本願の実施例は、音声認識によるページ操作方法を提供しており、以下、図1の適用場面に合わせて、図2〜図11を参照して本願の例示的な実施形態による音声認識によるページ操作方法を説明する。
図2は、本願の一実施例による音声認識によるページ操作方法のフローチャートを模式的に示している。
本願の実施例において、電子機器のページは、少なくとも1つの制御エレメントを含んでもよく、各制御エレメントは、この制御エレメントに関する文字的記述を含む。ユーザは、音声によってページにおける制御エレメントについて操作することができる。
図2に示すように、本願の実施例の音声認識によるページ操作方法200は、例えば操作S210〜操作S240を含んでもよい。
操作S210において、受信した音声を認識して音声認識結果を得る。
操作S220において、制御エレメント毎に設置された中国語形式の文字的記述を取得する。
操作S230において、少なくとも1つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定する。
操作S240において、目標制御エレメントに関連する制御操作を実行して音声認識結果を表示し、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示する。
本願の実施例によれば、制御エレメントの文字的記述は、制御エレメントを定義するためのものであってもよく、この文字的記述は中国語であってもよい。本願の制御エレメントは、文字、ピクチャ又はその両方の組合せを含むが、それらに限られない。制御エレメントが文字である場合、この制御エレメントの文字的記述は、制御エレメント自身であってもよく、例えば制御エレメントが文字「映画」である場合、この制御エレメントの文字的記述は「映画」であってもよく、この文字的記述「映画」がページ上に表示されてもよい。制御エレメントがピクチャである場合、この制御エレメントの文字的記述は、この制御エレメントを記述するための文字であってもよく、例えば、制御エレメントが映画「ヒーロー」のピクチャである場合、この制御エレメントの文字的記述は「ヒーロー」であってもよく、この文字的記述「ヒーロー」が下層に記憶され、ページ上に表示されなくてもよい。制御エレメントがピクチャと文字との組合せである場合、この制御エレメントの文字的記述は、制御エレメントに含まれる文字自身であってもよく、例えば、制御エレメントが映画「ヒーロー」のピクチャ及び文字(この文字はピクチャと隣接して表示される文字「ヒーロー」であってもよい)である場合、この制御エレメントの文字的記述は、文字「ヒーロー」であってもよく、この文字的記述「ヒーロー」がページ上に表示されてもよい。
本願の実施例において、ユーザの音声を受信した時、受信した音声を認識処理して音声認識結果を得ることができ、音声認識結果はテキスト情報であってよい。音声認識結果が認識された後、音声認識結果のピンインと少なくとも1つの制御エレメントの文字的記述のピンインとをマッチングして、少なくとも1つの制御エレメントにおける文字的記述のピンインと音声認識結果のピンインとがマッチした制御エレメントを目標制御エレメントとする。
音声認識結果がテキスト情報を含むことができるため、目標制御エレメントが特定された後、目標制御エレメントの文字的記述と音声認識結果とをマッチングすることができる。音声認識結果と目標制御エレメントの文字的記述とがマッチしないと、音声認識に認識エラーが発生したことを表して、認識された音声認識結果をそのままページ上に表示すれば、ユーザがページを見る時に間違った音声認識結果を見ることになり、これによってユーザのエクスペリエンスが悪い。したがって、本願は、音声認識結果のピンインと目標制御エレメントの文字的記述のピンインとがマッチした場合、ユーザの音声がこの目標制御エレメントを対象としていることを確定でき、ただ認識効果がよくないことによって、音声認識結果とユーザが対象としている目標制御エレメントの文字的記述とが一致しないことになり、そのため、本願の実施例は、間違った音声認識結果を正確な音声認識結果に置き換えた後に表示することによって、ユーザが正確な音声認識結果を見ることができる。
例えば、音声認識結果が「ドラ魔」であり、制御エレメントの文字的記述が「ドラマ」である場合、この「ドラ魔」のピンイン「dianshiju」(発音が「ドラマ」の対応の中国語の文字と同じ中国語の文字のピンイン)と「ドラマ」のピンイン「dianshiju」(「ドラマ」の対応の中国語の文字のピンイン)とがマッチし、この時、文字的記述が「ドラマ」である制御エレメントを目標制御エレメントとして特定することができる。その後、音声認識結果「ドラ魔」と目標制御エレメントの文字的記述「ドラマ」とをマッチングし、音声認識結果「ドラ魔」と目標制御エレメントの文字的記述「ドラマ」とがマッチしないため、「ドラ魔」が間違った音声認識結果であることを表し、この時、音声認識結果「ドラ魔」を目標制御エレメントの文字的記述「ドラマ」に置き換えて表示することができる。即ち、置き換えた後の音声認識結果は「ドラマ」であり、正確な音声認識結果「ドラマ」をページ上に表示することで、ユーザが見る時に正確な音声認識結果を見ることになり、ユーザの見るエクスペリエンスを向上する。
これによって、認識エラーの状況を直すために、本願の実施例は、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて、置き換えた音声認識結果をページ上に表示することができ、この時にページ上に表示された置き換えた後の音声認識結果がユーザの本意に合致するため、ページ上に表示された音声認識結果がユーザ本意に合致しない状況を避けられる。そのため、本願の実施例の技術案によって、ページ表示の正確率を向上し、即ち、ページ上に正確な音声認識結果が表示され、ユーザがページを見るエクスペリエンスを向上する。
1つの例示において、音声認識結果のピンインと制御エレメントの文字的記述のピンインとをマッチングすることで、目標制御エレメントを特定した後、目標制御エレメントに関連する制御操作を直接に実行してもよい。ピンインがマッチすると、制御操作を直接に実行することは、ページ操作のレスポンス速度を向上し、ページ操作のレスポンス時間を低減することができる。
別の例示において、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて、ページ上に表示すると同時に、又はその後に、目標制御エレメントに関連する制御操作を実行する。即ち、正確な音声認識結果を表示する時に、制御操作を実行して、ユーザに、正確な音声認識結果の表示とページの制御操作とがほぼ同時に行われることを感知させることで、正確な音声認識結果の表示とページの制御操作との間の遅延を低減し、ユーザの使用エクスペリエンスを向上する。
図3は、本願の実施例による目標制御エレメントを特定するフローチャートを模式的に示している。
図3に示すように、本願の実施例において、少なくとも1つの制御エレメントから文字的記述のピンインが音声認識結果のピンインとマッチした制御エレメントを目標制御エレメントとして特定することは、例えば、操作S321〜操作S323を含む。
操作S321において、音声認識結果をピンインに変換する。
操作S322において、各制御エレメントの文字的記述をピンインに変換する。
操作S323において、音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、音声認識結果のピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定する。
本願の実施例において、認識された音声認識結果がテキスト情報であるため、音声認識結果をピンインに変換し、各制御エレメントの文字的記述をピンインに変換することができ、そして、変換された音声認識結果のピンインと変換された各制御エレメントの文字的記述のピンインとをマッチングして、少なくとも1つの制御エレメントから目標制御エレメントを特定し、特定された目標制御エレメントの文字的記述のピンインと音声認識結果のピンインとがマッチする。
本願の実施例によれば、音声認識結果と各制御エレメントの文字的記述とをピンインに変換した後、ピンインのマッチングで目標制御エレメントを特定することで、マッチング正確率を向上し、ユーザ音声は正しいが、音声認識が間違ったことによって、得られた間違った音声認識結果と各制御エレメントの文字的記述とがマッチしない状況を避けられる。即ち、ピンインマッチングの方式で、ユーザ音声が対象としている目標制御エレメントを迅速かつ正確に特定することができ、これによって、目標制御エレメントのマッチング正確率とマッチング効率とを向上した。
図4は、本願の一実施例による音声認識結果を置き換える模式図を模式的に示している。
図4に示すように、ページ上に複数の制御エレメントが表示されていることを例とする。音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、目標制御エレメントを特定した後、音声認識結果と目標制御エレメントの文字的記述とをマッチングして、両方がマッチしないと、音声認識結果を目標制御エレメントの文字的記述に置き換える。
例えば、ページ上に表示されている複数の制御エレメントが文字、ピクチャを含むことを例とする。例えば、複数の制御エレメント401、402、403、404、405は、それぞれ文字「映画」、文字「ドラマ」、文字「ドキュメンタリー」、ある映画(例えば、映画「ヒーロー」)のピクチャ、あるドラマ(例えば、ドラマ「西遊記」)のピクチャである。文字タイプの制御エレメント401、402、403について、各制御エレメントの文字的記述は、その制御エレメント自身である。ピクチャタイプの制御エレメント404、405について、制御エレメント404、405の文字的記述は、例えば、それぞれ「ヒーロー」、「西遊記」である。音声認識結果406は、例えば「ドラ魔」である。音声認識結果「ドラ魔」のピンインと各制御エレメントの文字的記述のピンインとをマッチングすることで、マッチした制御エレメントを目標制御エレメントとして特定し、例えば、制御エレメント「ドラマ」のピンイン「dianshiju」と音声認識結果「ドラ魔」のピンイン「dianshiju」とがマッチすると、制御エレメント「ドラマ」を目標制御エレメントとして特定する。
次に、音声認識結果「ドラ魔」と目標制御エレメントの文字的記述「ドラマ」とをマッチングして、両方が一致しないため、音声認識結果406を目標制御エレメントの文字的記述に置き換えて、置き換えた後の音声認識結果406’が得られ、置き換えた後の音声認識結果406’は、例えば「ドラマ」である。
図5は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。
図5に示すように、ページ上に複数の制御エレメントが表示されていることを例にしている。各制御エレメントの文字的記述は、複数のサブ部分を含む。音声認識結果のピンインと各制御エレメントの複数のサブ部分の中の各サブ部分のピンインとをマッチングする。その後、少なくとも1つのサブ部分のピンインと音声認識結果のピンインとがマッチした制御エレメントを目標制御エレメントとして特定する。次に、音声認識結果と目標制御エレメントの少なくとも1つのサブ部分とをマッチングして、両方がマッチしないと、音声認識結果を目標制御エレメントの文字的記述の中の少なくとも1つのサブ部分に置き換えて表示する。
例えば、ページ上に表示されている複数の制御エレメントが、文字、ピクチャを含むことを例にしている。例えば、複数の制御エレメント501、502、503、504、505は、それぞれ文字「映画」、文字「ドラマ」、文字「ドキュメンタリー」、ある映画(例えば、映画「ヒーロー」)のピクチャ、あるドラマ(例えば、ドラマ「西遊記」)のピクチャである。文字タイプの制御エレメント501、502、503について、各制御エレメントの文字的記述は、その制御エレメント自身である。ピクチャタイプの制御エレメント504、505について、制御エレメント504、505それぞれの文字的記述は、例えば複数のサブ部分を含む。
制御エレメント505を例として、この制御エレメント505の文字的記述は、例えば複数のサブ部分505A、505B、505Cを含み、複数のサブ部分505A、505B、505Cは、例えば、それぞれ「西遊記」、「俳優XXX」、「二十五集」である。
音声認識結果506は、例えば「再遊記」である。音声認識結果「再遊記」のピンインと各制御エレメントの複数のサブ部分の中の各サブ部分のピンインとをマッチングし、例えば、音声認識結果「再遊記」のピンインと制御エレメント504の複数のサブ部分の中の各サブ部分のピンインとをマッチングして、いずれのサブ部分のピンインともマッチしないと、続いて、音声認識結果「再遊記」のピンインと制御エレメント505の複数のサブ部分の中の各サブ部分のピンインとをマッチングしてマッチング結果を取得する。マッチング結果は、例えば制御エレメント505の中のサブ部分505A(例えば、「西遊記」)のピンインと音声認識結果「再遊記」のピンインとがマッチしたため、制御エレメント505を目標制御エレメントとして特定する。
次に、音声認識結果「再遊記」と目標制御エレメントの文字的記述「西遊記」とをマッチングして、両方が一致しないため、音声認識結果506を目標制御エレメントの文字的記述の中のサブ部分「西遊記」に置き換えて、置き換えた後の音声認識結果506’が得られ、置き換えた後の音声認識結果506’は、例えば「西遊記」である。
本願の実施例の制御エレメントの文字的記述が複数のサブ部分を含むため、音声認識結果のピンインと各サブ部分のピンインとをマッチングすることで目標制御エレメントを特定し、得られた目標制御エレメントの中の文字的記述に音声認識結果のピンインとマッチしたサブ部分を含み、その後、このサブ部分と音声認識結果とをマッチングして、両方がマッチしないと、音声認識結果をこのサブ部分に置き換える、と考えられる。即ち、音声認識結果を置き換える時に、この音声認識結果を目標制御エレメントの文字的記述のサブ部分に置き換えることで、指向性を持って音声認識結果を置き換えることを実現でき、置き換えた後の音声認識結果がユーザのニーズにより合致する。
図6は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。
図6に示すように、音声認識結果は、例えば1段落の文字を含む。音声認識結果の中のキーワードを特定し、キーワードのピンインと制御エレメントの文字的記述のピンインとをマッチングすることで、ピンインがキーワードのピンインとマッチした制御エレメントを目標制御エレメントとして特定する。次に、音声認識結果の中のキーワードと目標制御エレメントの文字的記述とをマッチングして、両方がマッチしないと、音声認識結果の中のキーワードを目標制御エレメントの文字的記述に置き換えて表示する。
例えば、ページ上に表示されている複数の制御エレメントが文字、ピクチャを含むことを例にしている。例えば、複数の制御エレメント601、602、603、604、605は、それぞれ文字「映画」、文字「ドラマ」、文字「ドキュメンタリー」、ある映画(例えば、映画「ヒーロー」)のピクチャ、あるドラマ(例えば、ドラマ「西遊記」)のピクチャである。文字タイプの制御エレメント601、602、603について、各制御エレメントの文字的記述は、その制御エレメント自身である。ピクチャタイプの制御エレメント604、605について、制御エレメント604、605の文字的記述は、例えば、それぞれ「ヒーロー」、「西遊記」である。
音声認識結果606は、例えば「再遊記を再生してください」であり、この音声認識結果606は1段落の文字である。音声認識結果606の中のキーワード606Aを特定することができる。例えば、音声認識結果606の中の各単語の品詞を特定し、そして音声認識結果606の中の名詞をキーワードとし、例えば音声認識結果606の中の「再遊記」をキーワード606Aとする。
次に、音声認識結果606の中のキーワード606A(即ち、「再遊記」)のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、マッチした制御エレメントを目標制御エレメントとして特定する。例えば、制御エレメント605の文字的記述「西遊記」のピンイン「xiyouji」(「西遊記」の対応の中国語の文字のピンイン)と音声認識結果606の中のキーワード「再遊記」のピンイン「xiyouji」(発音が「西遊記」の対応の中国語の文字と同じ中国語の文字のピンイン)とがマッチすると、制御エレメント605を目標制御エレメントとして特定する。
次に、音声認識結果606の中のキーワード「再遊記」と目標制御エレメントの文字的記述「西遊記」とをマッチングして、両方が一致しないため、音声認識結果606の中のキーワード「再遊記」を目標制御エレメントの文字的記述「西遊記」に置き換えて、置き換えた後の音声認識結果606’が得られる。置き換えた後の音声認識結果606’は、例えば「西遊記を再生してください」であり、置き換えた後の音声認識結果606’の中の名詞キーワード606A’は「西遊記」である。
音声認識結果が1段落の文字を含む場合、この音声認識結果の中の、キーワード以外の他の文字は通常に共通文字であるため、キーワード以外の他の文字の認識正確性は、通常高く、これによって音声認識結果の中のキーワードを特定し、キーワードのピンインと各制御エレメントの文字的記述のピンインとをマッチングすることで、目標制御エレメントを特定し、そして目標制御エレメントの文字的記述と音声認識結果をマッチングして、両方がマッチしないと、音声認識結果を目標制御エレメントの文字的記述に置き換える、と理解され得る。即ち、音声認識結果を置き換える時に、指向性を持って音声認識結果の中のキーワードをマッチングして置き換えることができることによって、マッチング及び置き換えの効率を向上し、マッチング及び置き換えの過程において必要とする計算量を低減し、置き換えた後の音声認識結果の、置き換える前の音声認識結果に対する変更程度が小さくなり、これによって置き換えた後の音声認識結果がユーザのニーズにより合致する。
図7は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。
図7に示すように、音声認識結果は、例えば1段落の文字を含み、各制御エレメントの文字的記述は、複数のサブ部分を含む。音声認識結果の中のキーワードを特定し、キーワードのピンインと各制御エレメントの複数のサブ部分の中の各サブ部分のピンインとをマッチングする。そして、少なくとも1つのサブ部分のピンインと音声認識結果のキーワードのピンインとがマッチした制御エレメントを目標制御エレメントとして特定する。次に、音声認識結果のキーワードと目標制御エレメントの少なくとも1つのサブ部分とをマッチングして、両方がマッチしないと、音声認識結果のキーワードを目標制御エレメントの文字的記述の中の少なくとも1つのサブ部分に置き換えて表示する。
例えば、ページ上に表示されている複数の制御エレメントが文字、ピクチャを含むことを例にしている。例えば、複数の制御エレメント701、702、703、704、705は、それぞれ文字「映画」、文字「ドラマ」、文字「ドキュメンタリー」、ある映画(例えば、映画「ヒーロー」)のピクチャ、あるドラマ(例えば、ドラマ「西遊記」)のピクチャである。文字タイプの制御エレメント701、702、703について、各制御エレメントの文字的記述は、その制御エレメント自身である。ピクチャタイプの制御エレメント704、705について、制御エレメント704、705それぞれの文字的記述は、例えば複数のサブ部分を含む。
制御エレメント705を例として、この制御エレメント705の文字的記述は、複数のサブ部分705A、705B、705Cを含み、複数のサブ部分705A、705B、705Cは、例えば、それぞれ「西遊記」、「俳優XXX」、「二十五集」である。
音声認識結果706は、例えば「再遊記を再生してください」であり、この音声認識結果706は1段落の文字である。例えば、音声認識結果706の中の各単語の品詞を特定し、そして、音声認識結果706の中の名詞をキーワード706Aとする。例えば、音声認識結果706の中の「再遊記」をキーワード706Aとする。
次に、音声認識結果706の中のキーワード706A(即ち、「再遊記」)のピンインと各制御エレメントの複数のサブ部分の中の各サブ部分のピンインとをマッチングする。例えば、音声認識結果706のキーワード「再遊記」のピンインと制御エレメント705の複数のサブ部分の中の各サブ部分のピンインとをマッチングしてマッチング結果が得られ、マッチング結果は、制御エレメント705の中のサブ部分「西遊記」のピンインと音声認識結果706の中のキーワード「再遊記」のピンインとがマッチしたため、制御エレメント705を目標制御エレメントとして特定する。
次に、音声認識結果706の中のキーワード「再遊記」と目標制御エレメントの文字的記述「西遊記」とをマッチングして、両方が一致しないため、音声認識結果706の中のキーワード「再遊記」を目標制御エレメントの文字的記述「西遊記」に置き換えて、置き換えた後の音声認識結果706’が得られ、置き換えた後の音声認識結果706’は、例えば「西遊記を再生してください」であり、置き換えた後の音声認識結果706’の中の名詞キーワード706A’は「西遊記」である。
音声認識結果が1段落の文字を含む場合、この音声認識結果の中の、キーワード以外の他の文字は通常に共通文字であるため、キーワード以外の他の文字の認識正確性は、通常高く、これによって音声認識結果の中のキーワードを特定し、キーワードのピンインと各制御エレメントの複数のサブ部分のピンインとをマッチングすることで目標制御エレメントを特定し、そして目標制御エレメントのサブ部分と音声認識結果とをマッチングして、両方がマッチしないと、音声認識結果を目標制御エレメントのサブ部分に置き換える、と理解され得る。即ち、音声認識結果を置き換える時に、指向性を持って音声認識結果の中のキーワードを目標制御エレメントの文字的記述のサブ部分に置き換えることができることによって、マッチング及び置き換えの効率を向上し、マッチング及び置き換えの過程において必要とする計算量を低減し、置き換えた後の音声認識結果の、置き換える前の音声認識結果に対する変更程度が小さくなり、これによって置き換えた後の音声認識結果がユーザのニーズにより合致する。
図8は、本願の別の実施例による音声認識によるページ操作方法のフローチャートを模式的に示している。
図8に示すように、本願の実施例の音声認識によるページ操作方法800は、例えば操作S810〜操作S880を含んでもよく、操作S840は、例えば操作S841〜操作S843を含む。
操作S810において、受信した音声を認識して音声認識結果を得る。
操作S820において、制御エレメント毎に設置された中国語形式の文字的記述を取得する。
操作S830において、少なくとも1つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定する。
操作S840において、前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示する。操作S840は、例えば操作S841〜操作S843を含む。
操作S841において、目標制御エレメントに関連する制御操作を実行して音声認識結果を表示する。
操作S842において、音声認識結果と目標制御エレメントの文字的記述とがマッチするかを判定する。マッチしない場合、操作S843を実行し、マッチした場合、終了することができる。
操作S843において、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示する。
操作S820を実行した後、及び操作S830を実行する前に、操作S850及び操作S860を実行してもよい。
操作S850において、音声認識結果をピンインに変換して、各制御エレメントの文字的記述をピンインに変換する。
操作S860において、音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、音声認識結果のピンインと各制御エレメントの文字的記述のピンインとがマッチするかを判定する。マッチした場合、操作S830を実行し、マッチしない場合、操作S870を実行する。
操作S870において、音声認識結果のピンインと少なくとも1つの制御エレメントの中の各制御エレメントの文字的記述のピンインとがマッチしない場合、音声認識結果を語義解析して語義解析結果を得る。
操作S880において、音声解析結果に基づいて、語義解析結果が対象としているアプリケーションプログラムを起動する。
例えば、音声認識結果が「ナビゲーションを起動してください」である場合、音声認識結果のピンインといずれの制御エレメントの文字的記述のピンインともマッチしないと、この音声認識結果を語義解析して語義解析結果が得られ、語義解析結果は、ユーザが地図アプリケーションプログラムを起動してナビゲーションを行う必要があることを表した時、語義解析結果に基づいて地図アプリケーションプログラムを起動することができる。
本願の実施例は、音声認識結果のピンインといずれの制御エレメントの文字的記述のピンインともマッチしない場合、音声認識結果を語義解析してユーザの音声意図を表す語義解析結果が得られ、語義解析結果に基づいて語義解析結果が対象としているアプリケーションプログラムを起動して、ユーザのニーズを満たすように、異なる方式でユーザの音声にレスポンスすることを実現し、ユーザの使用エクスペリエンスを向上した、と理解され得る。
図9は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。
図9に示すように、受信した音声を認識して音声認識結果を得た後、認識された音声認識結果をそのままページ上に表示してもよい。後に音声認識結果と目標制御エレメントの文字的記述とがマッチしないと判定した場合、音声認識結果を目標制御エレメントの文字的記述に置き換えた後に、置き換えた後の音声認識結果をページ上に表示して、元の音声認識結果を上書きしてもよい。具体的に、置き換えた後の音声認識結果の中の、置き換えられたキーワードをページ上に表示して、元の音声認識結果の中のキーワードを上書きしてもよい。
音声認識結果901が「再遊記を再生してください」であることを例に挙げて、この「再遊記を再生してください」がページ上に表示される。この音声認識結果901の中のキーワード901A(例えば、「再遊記」)と目標制御エレメントの文字的記述「西遊記」とがマッチしないため、音声認識結果901の中のキーワード「再遊記」を目標制御エレメントの文字的記述「西遊記」に置き換えて、置き換えた後の音声認識結果901’が「西遊記を再生してください」であり、置き換えた後の音声認識結果「西遊記を再生してください」がページ上に表示される。ただし、もともとページ上に表示されている音声認識結果901(例えば、「再遊記を再生してください」)の中の「再生してください」は、置き換えた後の音声認識結果901’(例えば、「西遊記を再生してください」)の中のキーワード901A’(例えば、「西遊記」)と一緒にページ上に表示されてもよく、即ち、ページ上に表示されている音声認識結果「再遊記を再生してください」の中の「再生してください」が置き換えられずに、ずっと表示され、指向性を持ってキーワードを置き換えて表示することを実現した。
本願の実施例において、ページが電子機器のタッチスクリーンに表示されている。ユーザは、このページ上の制御エレメントをタッチすることができ、電子機器は、タッチスクリーンにページ上の制御エレメントに対するタッチに応じて、タッチされた制御エレメントに関連する制御操作を行う。
図10は、本願の一実施例によるページ模式図を模式的に示している。
図10に示すように、本願の実施例のページはウェブページを含んでもよく、ページ上の制御エレメントは、ウェブアドレス1001と、ピクチャ1002と、アイコン1003と、文字1004との少なくとも1つを含み、目標制御エレメントに関連する制御操作は、ウェブアドレス1001と、ピクチャ1002と、アイコン1003と、文字1004との少なくとも1つに関連するリンクアドレスにアクセスすることを含む。
例えば、ユーザがウェブアドレス1001をタッチした時、このウェブアドレス1001に関連する制御操作を実行し、例えば、このウェブアドレス1001に対応するウェブページへ遷移する。ユーザがピクチャ1002(このピクチャ1002は、例えば、ドラマ「西遊記」に対応するピクチャである)をタッチした時、このピクチャ1002に関連する制御操作を実行し、例えば、ドラマ「西遊記」の関連情報を展示するウェブページへ遷移する。ユーザがアイコン1003(このアイコン1003は、例えば、再生アイコンである)をタッチした時、このアイコン1003に関連する制御操作を実行し、例えば、ドラマ「西遊記」を再生する。ユーザが文字1004をタッチした時、この文字1004に関連する制御操作を実行し、例えば、ドラマ「紅楼夢」を再生し、又はドラマ「紅楼夢」の関連情報を展示するウェブページへ遷移する。
図11は、本願の別の実施例によるページ模式図を模式的に示している。
図11に示すように、本願の実施例のページは、アプリケーションプログラムのインターフェースを含み、制御エレメントは、ピクチャ1101と、アイコン1102と、文字1103との少なくとも1つを含み、目標制御エレメントに関連する制御操作は、ビデオを再生することと、オーディオを再生することと、リストを展示することとの少なくとも1つを含む。
ユーザがピクチャ1101をタッチした時、このピクチャ1101に関連する制御操作を実行し、例えば、歌のビデオを再生する。ユーザがアイコン1102をタッチした時、このアイコン1102に関連する制御操作を実行し、例えばオーディオを再生し、例えば「XXX歌」を再生する。ユーザが文字1103をタッチした時、この文字1103に関連する制御操作を実行し、例えばリストを展示し、例えば歌手リストを展示する。
上記に示したページは、あくまで本願の実施例の技術案を理解しやすくするために提供した例示に過ぎず、本願の実施例のページは、上記に示したページを含むが、これらに限られない。本願の実施例のページは、任意の形式のページを含んでもよい、と考えられる。
本願の実施例の音声認識によるページ操作方法は、クラウドコンピューティングによって実行されてもよく、例えば、音声認識によるページ操作方法は、クラウドで実行されてもよい。具体的に、ユーザの音声を認識して音声認識結果が得られ、ピンイン変換及びピンイン対比によって目標制御エレメントを特定し、音声認識結果と目標制御エレメントの文字的記述とをマッチングし、音声認識結果を音声認識するなどの工程は、いずれもクラウドで実行され、実行結果が得られてもよく、クラウドが実行結果を電子機器に送信して電子機器ローカルに記憶させてもよく、電子機器によって音声認識結果を目標制御エレメントの文字的記述に変換して表示する。
図12は、本願の実施例による音声認識によるページ操作装置のブロック図を模式的に示している。
図12に示すように、本願の実施例の音声認識によるページ操作装置1200は、例えば、認識モジュール1210と、取得モジュール1220と、特定モジュール1230と、表示モジュール1240とを含む。
認識モジュール1210は、受信した音声を認識して、音声認識結果を得ることに用いることができる。本願の実施例によれば、認識モジュール1210は、例えば、前文で図2を参照して説明した操作S210を実行することができ、ここでは説明を省略する。
取得モジュール1220は、制御エレメント毎に設置された中国語形式の文字的記述を取得することに用いることができる。本願の実施例によれば、取得モジュール1220は、例えば、前文で図2を参照して説明した操作S220を実行することができ、ここでは説明を省略する。
特定モジュール1230は、少なくとも1つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定することに用いることができる。本願の実施例によれば、特定モジュール1230は、例えば、前文で図2を参照して説明した操作S230を実行することができ、ここでは説明を省略する。
表示モジュール1240は、前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示することができ、ただし、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示する。本願の実施例によれば、表示モジュール1240は、例えば、前文で図2を参照して説明した操作S240を実行することができ、ここでは説明を省略する。
本願の実施例によれば、本願は、さらに電子機器及び読取可能な記憶媒体を提供する。
図13は、本願の実施例の音声認識によるページ操作方法を実現するための電子機器のブロック図である。
図13に示すように、本願の実施例による音声認識によるページ操作方法の電子機器1300のブロック図である。電子機器1300は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータと、デスクトップコンピュータと、ワークベンチと、パーソナル・デジタル・アシスタントと、サーバと、ブレードサーバと、大型コンピュータと、他の適宜なコンピュータとを表す。電子機器は、様々な形態の移動装置、例えば、パーソナル・デジタル・アシスタントと、携帯電話と、スマートフォンと、ウェアラブル機器と、他の類似する計算装置とを表してもよい。本明細書に示す部品と、それらの接続関係と、それらの機能は、単に例示であり、本明細書で説明及び/又は要求した本願の実現を限定することを意図しない。
図13に示すように、この電子機器1300は、1つ又は複数のプロセッサ1310と、メモリ1320と、各部品を接続するための高速インターフェース及び低速インターフェースを含むインターフェースとを含む。各部品は、別々のバスで互いに接続され、共通のマザーボードに実装され、又は、必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器1300内で実行される命令を処理することができ、この命令は、メモリ中又はメモリ上に記憶されて、外部の入力・出力装置(例えば、インターフェースに結合された表示デバイス)にGUIの図形情報を表示する命令を含む。他の実施形態において、必要に応じて、複数のプロセッサ及び/又は複数のバスと複数のメモリとを一緒に使用してもよい。同様に、複数の電子機器1300を接続して、各機器が一部の必要な操作を提供してもよい(例えば、サーバアレー、一組のブレードサーバ、又はマルチプロセッサシステムとする)。図13は、1つプロセッサ1310を例にしている。
メモリ1320は、本願が提供した不揮発性のコンピュータ読取可能な記憶媒体である。メモリは少なくとも1つのプロセッサによって実行され得る命令を記憶しており、少なくとも1つのプロセッサに本願が提供した音声認識によるページ操作方法を実行させる。本願の不揮発性のコンピュータ読取可能な記憶媒体は、コンピュータ命令を記憶し、このコンピュータ命令は、コンピュータに本願が提供した音声認識によるページ操作方法を実行させるためのものである。
メモリ1320は、不揮発性のコンピュータ読取可能な記憶媒体として、不揮発性のソフトウェアプログラムと、不揮発性のコンピュータ実行可能なプログラム及びモジュールと、本願の実施例における音声認識によるページ操作方法に対応するプログラム命令/モジュール(例えば、図12に示す認識モジュール1210と、取得モジュール1220と、特定モジュール1230と、表示モジュール1240)とを記憶するためのものである。プロセッサ1310は、メモリ1320に記憶されている不揮発性のソフトウェアプログラムと、命令と、モジュールとを実行することで、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における音声認識によるページ操作方法を実現する。
メモリ1320は、オペレーティング・システム、少なくとも1つの機能が必要とするアプリケーションプログラムを記憶することができるプログラム記憶エリア、及び音声認識によるページ操作の電子機器1300の使用によって形成されたデータなどを記憶することができるデータ記憶領域を含んでもよい。また、メモリ1320は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ、例えば、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、又は他の不揮発性ソリッドメモリを含んでもよい。一部の実施例において、メモリ1320は、選択的に、プロセッサ1310に対して遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークを通じて音声認識によるページ操作の電子機器1300に接続されてもよい。上述したネットワークの実例は、インターネットと、イントラネットと、ローカルエリアネットワークと、移動通信ネットワークと、それらの組合せとを含むが、それらに限られない。
音声認識によるページ操作方法の電子機器1300は、入力装置1330と、出力装置1340とをさらに含んでもよい。プロセッサ1310と、メモリ1320と、入力装置1330と、出力装置1340とは、バス又は他の方式によって接続されてもよく、図13においてバスによって接続されることを例にしている。
入力装置1330は、入力されたデジタル又はキャラクター情報を受信し、音声認識によるページ操作の電子機器1300のユーザ設定及び機能制御に関わるキー信号入力を発生してよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、1つ又は複数のマウスボタン、トラックボール、レバーなどの入力装置である。出力装置1340は、表示デバイスと、補助照明装置(例えば、LED)と、触覚フィードバック装置(例えば、振動モーター)などを含んでもよい。この表示デバイスは、液晶ディスプレー(LCD)、発光ダイオード(LED)ディスプレー、プラズマディスプレーを含むが、これらに限られない。一部の実施形態において、表示デバイスはタッチスクリーンであってもよい。
ここで説明したシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現されてもよい。これらの各実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含んでもよく、この1つまたは複数のコンピュータプログラムが、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されてもよく、このプログラマブルプロセッサは、専用又は共通のプログラマブルプロセッサであってもよく、記憶システムと、少なくとも1つの入力装置と、少なくとも1つの出力装置とからデータと命令とを受信し、データと命令とをこの記憶システムと、この少なくとも1つの入力装置と、この少なくとも1つの出力装置とに伝送してもよい。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも称する)は、プログラマブルプロセッサの機械命令を含み、高級プロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ・機械言語によってこれらの計算プログラムを実施してもよい。本明細書で使用した用語「機械読取可能な媒体」及び「コンピュータ読取可能な媒体」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味しており、機械読取可能な信号である機械命令を受ける機械読取可能な媒体を含む。用語「機械読取可能な信号」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を意味している。
ユーザとのインタラクティブを提供するために、コンピュータ上にここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレー)モニタ)と、キーボード及び指向装置(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(声入力、語音入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとする)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とインタラクティブすることができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)と、広域ネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクティブする。相応するコンピュータ上で実行されるとともに、互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。
前に示す様々な形式のフローを利用して、ステップを並び替え、増加又は削除することができると理解されるべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本明細書はここで限定しない。
上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者にとって、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置き換えを行えることが、自明なことである。本願の趣旨と原則の範囲内になされた任意の修正、等価な置き換え、改進などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (15)

  1. 音声認識によるページ操作方法であって、前記ページは、少なくとも1つの制御エレメントを含み、前記方法は、
    受信した音声を認識して、音声認識結果を得ることと、
    制御エレメント毎に設置された中国語形式の文字的記述を取得することと、
    前記少なくとも1つの制御エレメントから、文字的記述のピンインが前記音声認識結果のピンインとマッチした目標制御エレメントを特定することと、
    前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、ただし、前記音声認識結果と前記目標制御エレメントの文字的記述とがマッチしない場合、前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示することと、を含む
    ページ操作方法。
  2. 前記少なくとも1つの制御エレメントから、目標制御エレメントを特定することは、
    前記音声認識結果をピンインに変換することと、
    各制御エレメントの文字的記述をピンインに変換することと、
    前記音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、前記音声認識結果のピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定することと、を含む
    請求項1に記載の方法。
  3. 前記少なくとも1つの制御エレメントの中の各制御エレメントの文字的記述は、複数のサブ部分を含み、
    前記音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングすることは、前記音声認識結果のピンインと各制御エレメントの前記複数のサブ部分の中の各サブ部分のピンインとをマッチングすることを含み、
    前記音声認識結果のピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定することは、少なくとも1つのサブ部分のピンインが前記音声認識結果のピンインとマッチした制御エレメントを前記目標制御エレメントとして特定することを含む
    請求項2に記載の方法。
  4. 前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示することは、前記音声認識結果を前記目標制御エレメントの文字的記述の中の前記少なくとも1つのサブ部分に置き換えて表示することを含む
    請求項3に記載の方法。
  5. 前記音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングすることは、前記音声認識結果の中のキーワードを特定し、前記キーワードのピンインと前記制御エレメントの文字的記述のピンインとをマッチングすることを含み、
    前記音声認識結果のピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定することは、前記キーワードのピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定することを含む
    請求項2に記載の方法。
  6. 前記音声認識結果の中のキーワードを特定することは、
    前記音声認識結果の中の各単語の品詞を特定することと、
    前記音声認識結果の中の名詞を前記キーワードとすることと、を含む
    請求項5に記載の方法。
  7. 前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示することは、前記音声認識結果の中のキーワードを前記目標制御エレメントの文字的記述に置き換えて表示することを含む
    請求項5に記載の方法。
  8. 前記音声認識結果のピンインと前記少なくとも1つの制御エレメントの中の各制御エレメントの文字的記述のピンインとがマッチしない場合、前記音声認識結果を語義解析して語義解析結果を得ることと、
    前記音声認識結果に基づいて前記語義解析結果が対象としているアプリケーションプログラムを起動することと、をさらに含む
    請求項1に記載の方法。
  9. 前記ページがタッチスクリーンに表示され、
    前記方法は、
    タッチスクリーンに前記ページ上の制御エレメントに対するタッチに応じて、前記タッチされた制御エレメントに関連する制御操作を実行することをさらに含む
    請求項1〜8のいずれか一項に記載の方法。
  10. 前記ページは、ウェブページを含み、前記制御エレメントは、ウェブアドレスと、ピクチャと、アイコンと、文字との少なくとも1つを含み、前記目標制御エレメントに関連する制御操作は、ウェブアドレスと、ピクチャと、アイコンと、文字との少なくとも1つに関連するリンクアドレスにアクセスすることを含む
    請求項1〜8のいずれか一項に記載の方法。
  11. 前記ページは、アプリケーションプログラムのインターフェースを含み、制御エレメントは、ピクチャと、アイコンと、文字との少なくとも1つを含み、前記目標制御エレメントに関連する制御操作は、ビデオを再生することと、オーディオを再生することと、リストを展示することとの少なくとも1つを含む
    請求項1〜8のいずれか一項に記載の方法。
  12. 音声認識によるページ操作装置であって、前記ページは、少なくとも1つの制御エレメントを含み、
    前記装置は、
    受信した音声を認識して、音声認識結果を得る認識モジュールと、
    制御エレメント毎に設置された中国語形式の文字的記述を取得する取得モジュールと、
    前記少なくとも1つの制御エレメントから、文字的記述のピンインが前記音声認識結果のピンインとマッチした目標制御エレメントを特定する特定モジュールと、
    前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、ただし、前記音声認識結果と前記目標制御エレメントの文字的記述とがマッチしない場合、前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示する表示モジュールと、を含む
    ページ操作装置。
  13. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続するメモリとを含む電子機器であって、
    前記メモリに、前記少なくとも1つのプロセッサによって実行され得る命令を記憶しており、前記命令が前記少なくとも1つのプロセッサによって実行されることによって、前記少なくとも1つのプロセッサが請求項1〜11のいずれか一項に記載の方法を実行することができる、
    電子機器。
  14. コンピュータに請求項1〜11のいずれか一項に記載の方法を実行させるためのコンピュータ命令を記憶している不揮発性のコンピュータ読取可能な記憶媒体。
  15. 実行される際に、請求項1〜11のいずれか一項による方法を実現するコンピュータ命令を含むコンピュータプログラム。
JP2021046331A 2020-09-25 2021-03-19 音声認識によるページ操作方法、装置、機器、媒体及びプログラム Active JP7242737B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011028860.8 2020-09-25
CN202011028860.8A CN112114926A (zh) 2020-09-25 2020-09-25 基于语音识别的页面操作方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
JP2021099887A true JP2021099887A (ja) 2021-07-01
JP7242737B2 JP7242737B2 (ja) 2023-03-20

Family

ID=73797022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021046331A Active JP7242737B2 (ja) 2020-09-25 2021-03-19 音声認識によるページ操作方法、装置、機器、媒体及びプログラム

Country Status (3)

Country Link
JP (1) JP7242737B2 (ja)
KR (1) KR20210042853A (ja)
CN (1) CN112114926A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674743A (zh) * 2021-08-20 2021-11-19 云知声(上海)智能科技有限公司 用于自然语言处理中asr结果替换处理设备及处理方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723082A (zh) * 2021-08-30 2021-11-30 支付宝(杭州)信息技术有限公司 从文本中检测中文拼音的方法和装置
CN114049890A (zh) * 2021-11-03 2022-02-15 杭州逗酷软件科技有限公司 语音控制方法、装置以及电子设备
CN113923295B (zh) * 2021-11-17 2023-04-07 Oppo广东移动通信有限公司 语音控制方法、装置、电子设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2009128675A (ja) * 2007-11-26 2009-06-11 Toshiba Corp 音声を認識する装置、方法およびプログラム
JP2019091418A (ja) * 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ページを制御する方法および装置
JP2020056879A (ja) * 2018-10-01 2020-04-09 株式会社Fam−Time 情報提供システム及び方法
JP2020118955A (ja) * 2019-01-18 2020-08-06 アドビ インコーポレイテッド 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166462B (zh) * 2013-05-17 2017-07-21 北京搜狗科技发展有限公司 一种文字的输入方法和系统
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、系统及存储介质
CN109949814A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 语音识别方法、系统、计算机系统及计算机可读存储介质
CN109145276A (zh) * 2018-08-14 2019-01-04 杭州智语网络科技有限公司 一种基于拼音的语音转文字后的文本校正方法
CN111383631B (zh) * 2018-12-11 2024-01-23 阿里巴巴集团控股有限公司 一种语音交互方法、装置及系统
CN111540353B (zh) * 2020-04-16 2022-11-15 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111611468B (zh) * 2020-04-29 2023-08-25 百度在线网络技术(北京)有限公司 页面交互方法、装置和电子设备
CN111696557A (zh) * 2020-06-23 2020-09-22 深圳壹账通智能科技有限公司 语音识别结果的校准方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226881A (ja) * 2003-01-27 2004-08-12 Casio Comput Co Ltd 会話システム及び会話処理プログラム
JP2009128675A (ja) * 2007-11-26 2009-06-11 Toshiba Corp 音声を認識する装置、方法およびプログラム
JP2019091418A (ja) * 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド ページを制御する方法および装置
JP2020056879A (ja) * 2018-10-01 2020-04-09 株式会社Fam−Time 情報提供システム及び方法
JP2020118955A (ja) * 2019-01-18 2020-08-06 アドビ インコーポレイテッド 非表音文字体系を使用する言語のための音声支援型アプリケーションプロトタイプの試験中の音声コマンドマッチング

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674743A (zh) * 2021-08-20 2021-11-19 云知声(上海)智能科技有限公司 用于自然语言处理中asr结果替换处理设备及处理方法

Also Published As

Publication number Publication date
JP7242737B2 (ja) 2023-03-20
KR20210042853A (ko) 2021-04-20
CN112114926A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
US10394420B2 (en) Computer-implemented method of generating a content recommendation interface
JP2021099887A (ja) 音声認識によるページ操作方法、装置、機器、媒体及びプログラム
EP3414758B1 (en) Method and electronic device for performing voice based actions
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
CN108369580B (zh) 针对屏幕上项目选择的基于语言和域独立模型的方法
KR102310648B1 (ko) 상황 정보 탐색 및 내비게이션 기법
JP2022033689A (ja) ページのテーマを決定するための方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
WO2008122243A1 (fr) Procédé et système permettant d'appeler rapidement une commande de programme et système destiné à un procédé d'entrée
JP7228615B2 (ja) 映画・テレビドラマの内容検索方法及び装置
US11270669B2 (en) Rendering method and apparatus, electronic device and storage medium
JP2021192290A (ja) 機械翻訳モデルのトレーニング方法、装置及び電子機器
US20170285932A1 (en) Ink Input for Browser Navigation
EP3832492A1 (en) Method and apparatus for recommending voice packet, electronic device, and storage medium
CN112839261B (zh) 一种提升语音指令匹配度的方法及显示设备
US20210096814A1 (en) Speech control method, speech control device, electronic device, and readable storage medium
JP2022550609A (ja) ミニプログラムの音声制御方法、機器及び記憶媒体
JP7264957B2 (ja) 音声インタラクション方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム
US11526259B2 (en) Method and apparatus for determining extended reading content, device and storage medium
US20210342348A1 (en) Method for parsing query, electronic device and readable storage medium
CN112885354A (zh) 一种显示设备、服务器及基于语音的显示控制方法
CN112689177B (zh) 一种实现快速交互的方法及显示设备
US20210109965A1 (en) Method and apparatus for recommending speech packet, and storage medium
US20210337278A1 (en) Playback control method and apparatus, and storage medium
CN113658598B (zh) 一种显示设备的语音交互方法及显示设备
US20230244958A1 (en) Generation of conversational task completion structure

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210319

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20211101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220920

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20220920

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230308

R150 Certificate of patent or registration of utility model

Ref document number: 7242737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150