JP2021099887A

JP2021099887A - 音声認識によるページ操作方法、装置、機器、媒体及びプログラム

Info

Publication number: JP2021099887A
Application number: JP2021046331A
Authority: JP
Inventors: 偉向; Wei Xiang; 峻華許; Junhua Xu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2021-03-19
Publication date: 2021-07-01
Anticipated expiration: 2041-03-19
Also published as: JP7242737B2; KR20210042853A; CN112114926A

Abstract

【課題】音声認識、音声インタラクティブ、クラウドコンピューティングなどの分野における音声認識によるページ操作方法、装置、電子機器、媒体及びプログラムを提供する。【解決手段】音声認識による、少なくとも１つの制御エレメントを含むページの操作方法であって、受信した音声を認識して、音声認識結果を得ることＳ２１０と、制御エレメント毎に設置された中国語形式の文字的記述を取得することＳ２２０と、少なくとも１つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定することＳ２３０と、目標制御エレメントに関連する制御操作を実行して音声認識結果を表示し、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合は、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示することＳ２４０と、を含む。【選択図】図２

Description

本願は、自然言語処理の分野に関し、具体的には、音声認識、音声インタラクティブ、クラウドコンピューティングの分野に関し、より具体的には、音声認識によるページ操作方法、装置、機器及び媒体に関する。

ページ上の制御エレメントに対して制御操作を行う時、ユーザが、ページ上の制御エレメントを直接にクリックすることで、又は音声によって、ページ上の制御エレメントを制御操作することができる。しかし、関連技術では、音声によってページ上の制御エレメントを制御操作する時、音声認識結果のエラーによって認識率が低いという問題が存在し、ユーザの使用エクスペリエンスを低減する。

本願は、音声認識によるページ操作装置の方法、装置、機器、記憶媒体及びプログラムを提供する。

第１の局面によれば、本願は、音声認識によるページ操作方法を提供しており、前記ページは、少なくとも１つの制御エレメントを含み、前記方法は、受信した音声を認識して、音声認識結果を得ることと、制御エレメント毎に設置された中国語形式の文字的記述を取得することと、前記少なくとも１つの制御エレメントから、文字的記述のピンインが前記音声認識結果のピンインとマッチした目標制御エレメントを特定することと、前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、ただし、前記音声認識結果と前記目標制御エレメントの文字的記述とがマッチしない場合、前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示することと、を含む。

第２の局面によれば、本願は、音声認識によるページ操作装置を提供しており、前記ページは、少なくとも１つの制御エレメントを含み、前記装置は、認識モジュールと、取得モジュールと、特定モジュールと、表示モジュールとを含む。その中で、認識モジュールは、受信した音声を認識して、音声認識結果を得るためのものであり、取得モジュールは、制御エレメント毎に設置された中国語形式の文字的記述を取得するためのものであり、特定モジュールは、前記少なくとも１つの制御エレメントから、文字的記述のピンインが前記音声認識結果のピンインとマッチした目標制御エレメントを特定するためのものであり、表示モジュールは、前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、ただし、前記音声認識結果と前記目標制御エレメントの文字的記述とがマッチしない場合、前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示するためのものである。

第３の局面によれば、本願は、電子機器を提供しており、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信接続するメモリとを含む。その中で、前記メモリは、前記少なくとも１つのプロセッサによって実行され得る命令を記憶しており、前記命令が前記少なくとも１つのプロセッサによって実行されることによって、前記少なくとも１つのプロセッサが上述したような方法を実行することができる。

第４の局面によれば、本願は、前記コンピュータに上述したような方法を実行させるためのコンピュータ命令を記憶している不揮発性のコンピュータ読取可能な記憶媒体を提供する。

第５の局面によれば、本願は、コンピュータプログラムを提供し、実行される際に、上記方法を実現するコンピュータ実行可能な命令を含む。

この部分で説明した内容は、本願の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本願の範囲を限定するためのものでもない。本願の他の特徴は、以下の明細書によって理解し易くなるであろう。

図面は、本方案がよりよく理解されるためのものであり、本願に対する限定を構成しない。

図１は、本願の実施例による音声認識によるページ操作の適用場面を模式的に示している。図２は、本願の一実施例による音声認識によるページ操作方法のフローチャートを模式的に示している。図３は、本願の実施例による目標制御エレメントを特定するフローチャートを模式的に示している。図４は、本願の一実施例による音声認識結果を置き換える模式図を模式的に示している。図５は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。図６は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。図７は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。図８は、本願の別の実施例による音声認識によるページ操作方法のフローチャートを模式的に示している。図９は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。図１０は、本願の一実施例によるページ模式図を模式的に示している。図１１は、本願の別の実施例によるページ模式図を模式的に示している。図１２は、本願の実施例による音声認識によるページ操作装置のブロック図を模式的に示している。図１３は、本願の実施例の音声認識によるページ操作方法を実現するための電子機器のブロック図である。

以下、本願の例示的な実施例について図面を参照しながら説明する。その中で、理解の便宜のため本願の実施例の各詳細を含むが、これらはあくまで例示的なものであることを理解すべきである。そのため、当業者は、本願の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることを理解すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。

ここで使用した用語は、単に具体的な実施例を説明するためのものであって、本願を限定することを意図しない。ここで使用した用語「備える」、「含む」などは、前記特徴、ステップ、操作及び／又は部品の存在を表すが、１つ又は複数の他の特徴、ステップ、操作又は部品の存在や、追加を除外しない。

ここで使用される全ての用語（技術的及び科学的用語を含む）は、別途定義されない限り、当業者によって一般的に理解される意味を有する。ここで使用される用語は、本明細書の文脈と一致する意味を有すると解釈されるべきであり、理想的または過度に形式的に解釈されるべきではないことに留意されたい。

「Ａ、Ｂ及びＣなどのうちの少なくとも１つ」に類似する表現を使用する場合、その表現の意味が当業者によって一般的に理解されるように解釈されるべきである（例えば、「Ａ、Ｂ及びＣのうちの少なくとも１つを有するシステム」は、Ａを単独で有するシステム、Ｂを単独で有するシステム、Ｃを単独で有するシステム、Ａ及びＢを有するシステム、Ａ及びＣを有するシステム、Ｂ及びＣを有するシステム、及び／又はＡ、Ｂ、Ｃを有するシステムなどを含むが、これらに限定されない）。

本願の実施例は、音声認識によるページ操作方法を提供し、ページは少なくとも１つの制御エレメントを含み、この方法は、受信した音声を認識して音声認識結果を得ることと、制御エレメント毎に設置された中国語形式の文字的記述を取得することと、少なくとも１つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定することと、目標制御エレメントに関連する制御操作を実行して音声認識結果を表示し、ただし、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示することを含む。

図１は、本願の実施例による音声認識によるページ操作の適用場面を模式的に示している。

図１に示すように、本願の実施例の適用場面１００は、例えばページ１１０を含む。ページ１１０は、電子機器上に表示されたページであってよい。電子機器は、スマートフォン、コンピュータ、スマートスピーカーを含んでもよいが、これらに限られない。

ページ１１０上には、例えば、複数の制御エレメントが表示されている。電子機器は、ユーザの制御エレメントに対するクリック操作又はタッチ操作に応じて制御エレメントに関連する制御操作を実行してもよい。クリック操作は、例えば入力デバイスによって実施してもよく、入力デバイスはマウスであってもよい。電子機器がタッチスクリーンを含む場合、タッチ操作は、例えばユーザの指によって実施されてもよい。

１つの例示において、制御エレメントは、文字又はピクチャであってもよい。例えば、制御エレメント１１１、１１２、１１３は文字であり、制御エレメント１１４、１１５はピクチャである。ユーザは、各制御エレメントをクリック又はタッチしてもよく、電子機器は、ユーザのクリック又はタッチに応じて制御エレメントに関連する制御操作を実行してもよい。

例えば、制御エレメント１１１は文字「映画」であり、制御エレメント１１２は文字「ドラマ」であり、制御エレメント１１３は文字「ドキュメンタリー」であり、制御エレメント１１４はある映画（例えば、映画「ヒーロー」）のピクチャであり、制御エレメント１１５はあるドラマ（例えば、ドラマ「西遊記」）のピクチャであってもよい。

ユーザが制御エレメント１１１をクリック又はタッチした時、電子機器は、ユーザの制御エレメント１１１に対するクリック操作又はタッチ操作に応じて、ユーザに映画リストを推奨してもよい。ユーザが制御エレメント１１２をクリック又はタッチした時、電子機器は、ユーザの制御エレメント１１２に対するクリック操作又はタッチ操作に応じて、ユーザにドラマリストを推奨してもよい。ユーザが制御エレメント１１３をクリック又はタッチした時、電子機器は、ユーザの制御エレメント１１３に対するクリック操作又はタッチ操作に応じて、ユーザにドキュメンタリーリストを推奨してもよい。ユーザが制御エレメント１１４をクリック又はタッチした時、電子機器は、ユーザの制御エレメント１１４に対するクリック操作又はタッチ操作に応じて、ユーザに映画「ヒーロー」を再生してもよく、ユーザが制御エレメント１１５をクリック又はタッチした時、電子機器は、ユーザの制御エレメント１１５に対するクリック操作又はタッチ操作に応じて、ユーザにドラマ「西遊記」を再生してもよい。

別の実施例において、ユーザは、音声インタラクティブの方式によって各制御エレメントについて操作してもよい。例えば、ユーザが映画の再生リストを見る必要がある時、ユーザが音声「映画」を発してもよく、電子機器がユーザの音声「映画」に応じて制御エレメント１１１に関連する制御操作を実行してユーザに映画リストを推奨する。ユーザがドラマの再生リストを見る必要がある時、ユーザが音声「ドラマ」を発してもよく、電子機器がユーザの音声「ドラマ」に応じて制御エレメント１１２に関連する制御操作を実行してユーザにドラマリストを推奨する。ユーザがドキュメンタリーのリストを見る必要がある時、ユーザが音声「ドキュメンタリー」を発してもよく、電子機器がユーザの音声「ドキュメンタリー」に応じて制御エレメント１１３に関連する制御操作を実行してユーザにドキュメンタリーリストを推奨する。ユーザが映画「ヒーロー」を見る必要がある時、ユーザが音声「ヒーロー」を発してもよく、電子機器がユーザの音声「ヒーロー」に応じて制御エレメント１１４に関連する制御操作を実行してユーザに映画「ヒーロー」を再生する。ユーザがドラマ「西遊記」を見る必要がある時、ユーザが音声「西遊記」を発してもよく、電子機器がユーザの音声「西遊記」に応じて制御エレメント１１５に関連する制御操作を実行してユーザにドラマ「西遊記」を再生する。

本願の実施例によれば、音声によってページ上の制御エレメントについて操作し、ページに対するユーザによる操作の効率を向上した。なお、音声インタラクティブの方式によってページを操作し、ページ操作の煩雑さを低減して、ユーザの使用エクスペリエンスを向上したことを実現した。

本願の実施例は、音声認識によるページ操作方法を提供しており、以下、図１の適用場面に合わせて、図２〜図１１を参照して本願の例示的な実施形態による音声認識によるページ操作方法を説明する。

図２は、本願の一実施例による音声認識によるページ操作方法のフローチャートを模式的に示している。

本願の実施例において、電子機器のページは、少なくとも１つの制御エレメントを含んでもよく、各制御エレメントは、この制御エレメントに関する文字的記述を含む。ユーザは、音声によってページにおける制御エレメントについて操作することができる。

図２に示すように、本願の実施例の音声認識によるページ操作方法２００は、例えば操作Ｓ２１０〜操作Ｓ２４０を含んでもよい。

操作Ｓ２１０において、受信した音声を認識して音声認識結果を得る。

操作Ｓ２２０において、制御エレメント毎に設置された中国語形式の文字的記述を取得する。

操作Ｓ２３０において、少なくとも１つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定する。

操作Ｓ２４０において、目標制御エレメントに関連する制御操作を実行して音声認識結果を表示し、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示する。

本願の実施例によれば、制御エレメントの文字的記述は、制御エレメントを定義するためのものであってもよく、この文字的記述は中国語であってもよい。本願の制御エレメントは、文字、ピクチャ又はその両方の組合せを含むが、それらに限られない。制御エレメントが文字である場合、この制御エレメントの文字的記述は、制御エレメント自身であってもよく、例えば制御エレメントが文字「映画」である場合、この制御エレメントの文字的記述は「映画」であってもよく、この文字的記述「映画」がページ上に表示されてもよい。制御エレメントがピクチャである場合、この制御エレメントの文字的記述は、この制御エレメントを記述するための文字であってもよく、例えば、制御エレメントが映画「ヒーロー」のピクチャである場合、この制御エレメントの文字的記述は「ヒーロー」であってもよく、この文字的記述「ヒーロー」が下層に記憶され、ページ上に表示されなくてもよい。制御エレメントがピクチャと文字との組合せである場合、この制御エレメントの文字的記述は、制御エレメントに含まれる文字自身であってもよく、例えば、制御エレメントが映画「ヒーロー」のピクチャ及び文字（この文字はピクチャと隣接して表示される文字「ヒーロー」であってもよい）である場合、この制御エレメントの文字的記述は、文字「ヒーロー」であってもよく、この文字的記述「ヒーロー」がページ上に表示されてもよい。

本願の実施例において、ユーザの音声を受信した時、受信した音声を認識処理して音声認識結果を得ることができ、音声認識結果はテキスト情報であってよい。音声認識結果が認識された後、音声認識結果のピンインと少なくとも１つの制御エレメントの文字的記述のピンインとをマッチングして、少なくとも１つの制御エレメントにおける文字的記述のピンインと音声認識結果のピンインとがマッチした制御エレメントを目標制御エレメントとする。

音声認識結果がテキスト情報を含むことができるため、目標制御エレメントが特定された後、目標制御エレメントの文字的記述と音声認識結果とをマッチングすることができる。音声認識結果と目標制御エレメントの文字的記述とがマッチしないと、音声認識に認識エラーが発生したことを表して、認識された音声認識結果をそのままページ上に表示すれば、ユーザがページを見る時に間違った音声認識結果を見ることになり、これによってユーザのエクスペリエンスが悪い。したがって、本願は、音声認識結果のピンインと目標制御エレメントの文字的記述のピンインとがマッチした場合、ユーザの音声がこの目標制御エレメントを対象としていることを確定でき、ただ認識効果がよくないことによって、音声認識結果とユーザが対象としている目標制御エレメントの文字的記述とが一致しないことになり、そのため、本願の実施例は、間違った音声認識結果を正確な音声認識結果に置き換えた後に表示することによって、ユーザが正確な音声認識結果を見ることができる。

例えば、音声認識結果が「ドラ魔」であり、制御エレメントの文字的記述が「ドラマ」である場合、この「ドラ魔」のピンイン「ｄｉａｎｓｈｉｊｕ」（発音が「ドラマ」の対応の中国語の文字と同じ中国語の文字のピンイン）と「ドラマ」のピンイン「ｄｉａｎｓｈｉｊｕ」（「ドラマ」の対応の中国語の文字のピンイン）とがマッチし、この時、文字的記述が「ドラマ」である制御エレメントを目標制御エレメントとして特定することができる。その後、音声認識結果「ドラ魔」と目標制御エレメントの文字的記述「ドラマ」とをマッチングし、音声認識結果「ドラ魔」と目標制御エレメントの文字的記述「ドラマ」とがマッチしないため、「ドラ魔」が間違った音声認識結果であることを表し、この時、音声認識結果「ドラ魔」を目標制御エレメントの文字的記述「ドラマ」に置き換えて表示することができる。即ち、置き換えた後の音声認識結果は「ドラマ」であり、正確な音声認識結果「ドラマ」をページ上に表示することで、ユーザが見る時に正確な音声認識結果を見ることになり、ユーザの見るエクスペリエンスを向上する。

これによって、認識エラーの状況を直すために、本願の実施例は、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて、置き換えた音声認識結果をページ上に表示することができ、この時にページ上に表示された置き換えた後の音声認識結果がユーザの本意に合致するため、ページ上に表示された音声認識結果がユーザ本意に合致しない状況を避けられる。そのため、本願の実施例の技術案によって、ページ表示の正確率を向上し、即ち、ページ上に正確な音声認識結果が表示され、ユーザがページを見るエクスペリエンスを向上する。

１つの例示において、音声認識結果のピンインと制御エレメントの文字的記述のピンインとをマッチングすることで、目標制御エレメントを特定した後、目標制御エレメントに関連する制御操作を直接に実行してもよい。ピンインがマッチすると、制御操作を直接に実行することは、ページ操作のレスポンス速度を向上し、ページ操作のレスポンス時間を低減することができる。

別の例示において、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて、ページ上に表示すると同時に、又はその後に、目標制御エレメントに関連する制御操作を実行する。即ち、正確な音声認識結果を表示する時に、制御操作を実行して、ユーザに、正確な音声認識結果の表示とページの制御操作とがほぼ同時に行われることを感知させることで、正確な音声認識結果の表示とページの制御操作との間の遅延を低減し、ユーザの使用エクスペリエンスを向上する。

図３は、本願の実施例による目標制御エレメントを特定するフローチャートを模式的に示している。

図３に示すように、本願の実施例において、少なくとも１つの制御エレメントから文字的記述のピンインが音声認識結果のピンインとマッチした制御エレメントを目標制御エレメントとして特定することは、例えば、操作Ｓ３２１〜操作Ｓ３２３を含む。

操作Ｓ３２１において、音声認識結果をピンインに変換する。

操作Ｓ３２２において、各制御エレメントの文字的記述をピンインに変換する。

操作Ｓ３２３において、音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、音声認識結果のピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定する。

本願の実施例において、認識された音声認識結果がテキスト情報であるため、音声認識結果をピンインに変換し、各制御エレメントの文字的記述をピンインに変換することができ、そして、変換された音声認識結果のピンインと変換された各制御エレメントの文字的記述のピンインとをマッチングして、少なくとも１つの制御エレメントから目標制御エレメントを特定し、特定された目標制御エレメントの文字的記述のピンインと音声認識結果のピンインとがマッチする。

本願の実施例によれば、音声認識結果と各制御エレメントの文字的記述とをピンインに変換した後、ピンインのマッチングで目標制御エレメントを特定することで、マッチング正確率を向上し、ユーザ音声は正しいが、音声認識が間違ったことによって、得られた間違った音声認識結果と各制御エレメントの文字的記述とがマッチしない状況を避けられる。即ち、ピンインマッチングの方式で、ユーザ音声が対象としている目標制御エレメントを迅速かつ正確に特定することができ、これによって、目標制御エレメントのマッチング正確率とマッチング効率とを向上した。

図４は、本願の一実施例による音声認識結果を置き換える模式図を模式的に示している。

図４に示すように、ページ上に複数の制御エレメントが表示されていることを例とする。音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、目標制御エレメントを特定した後、音声認識結果と目標制御エレメントの文字的記述とをマッチングして、両方がマッチしないと、音声認識結果を目標制御エレメントの文字的記述に置き換える。

例えば、ページ上に表示されている複数の制御エレメントが文字、ピクチャを含むことを例とする。例えば、複数の制御エレメント４０１、４０２、４０３、４０４、４０５は、それぞれ文字「映画」、文字「ドラマ」、文字「ドキュメンタリー」、ある映画（例えば、映画「ヒーロー」）のピクチャ、あるドラマ（例えば、ドラマ「西遊記」）のピクチャである。文字タイプの制御エレメント４０１、４０２、４０３について、各制御エレメントの文字的記述は、その制御エレメント自身である。ピクチャタイプの制御エレメント４０４、４０５について、制御エレメント４０４、４０５の文字的記述は、例えば、それぞれ「ヒーロー」、「西遊記」である。音声認識結果４０６は、例えば「ドラ魔」である。音声認識結果「ドラ魔」のピンインと各制御エレメントの文字的記述のピンインとをマッチングすることで、マッチした制御エレメントを目標制御エレメントとして特定し、例えば、制御エレメント「ドラマ」のピンイン「ｄｉａｎｓｈｉｊｕ」と音声認識結果「ドラ魔」のピンイン「ｄｉａｎｓｈｉｊｕ」とがマッチすると、制御エレメント「ドラマ」を目標制御エレメントとして特定する。

次に、音声認識結果「ドラ魔」と目標制御エレメントの文字的記述「ドラマ」とをマッチングして、両方が一致しないため、音声認識結果４０６を目標制御エレメントの文字的記述に置き換えて、置き換えた後の音声認識結果４０６’が得られ、置き換えた後の音声認識結果４０６’は、例えば「ドラマ」である。

図５は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。

図５に示すように、ページ上に複数の制御エレメントが表示されていることを例にしている。各制御エレメントの文字的記述は、複数のサブ部分を含む。音声認識結果のピンインと各制御エレメントの複数のサブ部分の中の各サブ部分のピンインとをマッチングする。その後、少なくとも１つのサブ部分のピンインと音声認識結果のピンインとがマッチした制御エレメントを目標制御エレメントとして特定する。次に、音声認識結果と目標制御エレメントの少なくとも１つのサブ部分とをマッチングして、両方がマッチしないと、音声認識結果を目標制御エレメントの文字的記述の中の少なくとも１つのサブ部分に置き換えて表示する。

例えば、ページ上に表示されている複数の制御エレメントが、文字、ピクチャを含むことを例にしている。例えば、複数の制御エレメント５０１、５０２、５０３、５０４、５０５は、それぞれ文字「映画」、文字「ドラマ」、文字「ドキュメンタリー」、ある映画（例えば、映画「ヒーロー」）のピクチャ、あるドラマ（例えば、ドラマ「西遊記」）のピクチャである。文字タイプの制御エレメント５０１、５０２、５０３について、各制御エレメントの文字的記述は、その制御エレメント自身である。ピクチャタイプの制御エレメント５０４、５０５について、制御エレメント５０４、５０５それぞれの文字的記述は、例えば複数のサブ部分を含む。

制御エレメント５０５を例として、この制御エレメント５０５の文字的記述は、例えば複数のサブ部分５０５Ａ、５０５Ｂ、５０５Ｃを含み、複数のサブ部分５０５Ａ、５０５Ｂ、５０５Ｃは、例えば、それぞれ「西遊記」、「俳優ＸＸＸ」、「二十五集」である。

音声認識結果５０６は、例えば「再遊記」である。音声認識結果「再遊記」のピンインと各制御エレメントの複数のサブ部分の中の各サブ部分のピンインとをマッチングし、例えば、音声認識結果「再遊記」のピンインと制御エレメント５０４の複数のサブ部分の中の各サブ部分のピンインとをマッチングして、いずれのサブ部分のピンインともマッチしないと、続いて、音声認識結果「再遊記」のピンインと制御エレメント５０５の複数のサブ部分の中の各サブ部分のピンインとをマッチングしてマッチング結果を取得する。マッチング結果は、例えば制御エレメント５０５の中のサブ部分５０５Ａ（例えば、「西遊記」）のピンインと音声認識結果「再遊記」のピンインとがマッチしたため、制御エレメント５０５を目標制御エレメントとして特定する。

次に、音声認識結果「再遊記」と目標制御エレメントの文字的記述「西遊記」とをマッチングして、両方が一致しないため、音声認識結果５０６を目標制御エレメントの文字的記述の中のサブ部分「西遊記」に置き換えて、置き換えた後の音声認識結果５０６’が得られ、置き換えた後の音声認識結果５０６’は、例えば「西遊記」である。

本願の実施例の制御エレメントの文字的記述が複数のサブ部分を含むため、音声認識結果のピンインと各サブ部分のピンインとをマッチングすることで目標制御エレメントを特定し、得られた目標制御エレメントの中の文字的記述に音声認識結果のピンインとマッチしたサブ部分を含み、その後、このサブ部分と音声認識結果とをマッチングして、両方がマッチしないと、音声認識結果をこのサブ部分に置き換える、と考えられる。即ち、音声認識結果を置き換える時に、この音声認識結果を目標制御エレメントの文字的記述のサブ部分に置き換えることで、指向性を持って音声認識結果を置き換えることを実現でき、置き換えた後の音声認識結果がユーザのニーズにより合致する。

図６は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。

図６に示すように、音声認識結果は、例えば１段落の文字を含む。音声認識結果の中のキーワードを特定し、キーワードのピンインと制御エレメントの文字的記述のピンインとをマッチングすることで、ピンインがキーワードのピンインとマッチした制御エレメントを目標制御エレメントとして特定する。次に、音声認識結果の中のキーワードと目標制御エレメントの文字的記述とをマッチングして、両方がマッチしないと、音声認識結果の中のキーワードを目標制御エレメントの文字的記述に置き換えて表示する。

例えば、ページ上に表示されている複数の制御エレメントが文字、ピクチャを含むことを例にしている。例えば、複数の制御エレメント６０１、６０２、６０３、６０４、６０５は、それぞれ文字「映画」、文字「ドラマ」、文字「ドキュメンタリー」、ある映画（例えば、映画「ヒーロー」）のピクチャ、あるドラマ（例えば、ドラマ「西遊記」）のピクチャである。文字タイプの制御エレメント６０１、６０２、６０３について、各制御エレメントの文字的記述は、その制御エレメント自身である。ピクチャタイプの制御エレメント６０４、６０５について、制御エレメント６０４、６０５の文字的記述は、例えば、それぞれ「ヒーロー」、「西遊記」である。

音声認識結果６０６は、例えば「再遊記を再生してください」であり、この音声認識結果６０６は１段落の文字である。音声認識結果６０６の中のキーワード６０６Ａを特定することができる。例えば、音声認識結果６０６の中の各単語の品詞を特定し、そして音声認識結果６０６の中の名詞をキーワードとし、例えば音声認識結果６０６の中の「再遊記」をキーワード６０６Ａとする。

次に、音声認識結果６０６の中のキーワード６０６Ａ（即ち、「再遊記」）のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、マッチした制御エレメントを目標制御エレメントとして特定する。例えば、制御エレメント６０５の文字的記述「西遊記」のピンイン「ｘｉｙｏｕｊｉ」（「西遊記」の対応の中国語の文字のピンイン）と音声認識結果６０６の中のキーワード「再遊記」のピンイン「ｘｉｙｏｕｊｉ」（発音が「西遊記」の対応の中国語の文字と同じ中国語の文字のピンイン）とがマッチすると、制御エレメント６０５を目標制御エレメントとして特定する。

次に、音声認識結果６０６の中のキーワード「再遊記」と目標制御エレメントの文字的記述「西遊記」とをマッチングして、両方が一致しないため、音声認識結果６０６の中のキーワード「再遊記」を目標制御エレメントの文字的記述「西遊記」に置き換えて、置き換えた後の音声認識結果６０６’が得られる。置き換えた後の音声認識結果６０６’は、例えば「西遊記を再生してください」であり、置き換えた後の音声認識結果６０６’の中の名詞キーワード６０６Ａ’は「西遊記」である。

音声認識結果が１段落の文字を含む場合、この音声認識結果の中の、キーワード以外の他の文字は通常に共通文字であるため、キーワード以外の他の文字の認識正確性は、通常高く、これによって音声認識結果の中のキーワードを特定し、キーワードのピンインと各制御エレメントの文字的記述のピンインとをマッチングすることで、目標制御エレメントを特定し、そして目標制御エレメントの文字的記述と音声認識結果をマッチングして、両方がマッチしないと、音声認識結果を目標制御エレメントの文字的記述に置き換える、と理解され得る。即ち、音声認識結果を置き換える時に、指向性を持って音声認識結果の中のキーワードをマッチングして置き換えることができることによって、マッチング及び置き換えの効率を向上し、マッチング及び置き換えの過程において必要とする計算量を低減し、置き換えた後の音声認識結果の、置き換える前の音声認識結果に対する変更程度が小さくなり、これによって置き換えた後の音声認識結果がユーザのニーズにより合致する。

図７は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。

図７に示すように、音声認識結果は、例えば１段落の文字を含み、各制御エレメントの文字的記述は、複数のサブ部分を含む。音声認識結果の中のキーワードを特定し、キーワードのピンインと各制御エレメントの複数のサブ部分の中の各サブ部分のピンインとをマッチングする。そして、少なくとも１つのサブ部分のピンインと音声認識結果のキーワードのピンインとがマッチした制御エレメントを目標制御エレメントとして特定する。次に、音声認識結果のキーワードと目標制御エレメントの少なくとも１つのサブ部分とをマッチングして、両方がマッチしないと、音声認識結果のキーワードを目標制御エレメントの文字的記述の中の少なくとも１つのサブ部分に置き換えて表示する。

例えば、ページ上に表示されている複数の制御エレメントが文字、ピクチャを含むことを例にしている。例えば、複数の制御エレメント７０１、７０２、７０３、７０４、７０５は、それぞれ文字「映画」、文字「ドラマ」、文字「ドキュメンタリー」、ある映画（例えば、映画「ヒーロー」）のピクチャ、あるドラマ（例えば、ドラマ「西遊記」）のピクチャである。文字タイプの制御エレメント７０１、７０２、７０３について、各制御エレメントの文字的記述は、その制御エレメント自身である。ピクチャタイプの制御エレメント７０４、７０５について、制御エレメント７０４、７０５それぞれの文字的記述は、例えば複数のサブ部分を含む。

制御エレメント７０５を例として、この制御エレメント７０５の文字的記述は、複数のサブ部分７０５Ａ、７０５Ｂ、７０５Ｃを含み、複数のサブ部分７０５Ａ、７０５Ｂ、７０５Ｃは、例えば、それぞれ「西遊記」、「俳優ＸＸＸ」、「二十五集」である。

音声認識結果７０６は、例えば「再遊記を再生してください」であり、この音声認識結果７０６は１段落の文字である。例えば、音声認識結果７０６の中の各単語の品詞を特定し、そして、音声認識結果７０６の中の名詞をキーワード７０６Ａとする。例えば、音声認識結果７０６の中の「再遊記」をキーワード７０６Ａとする。

次に、音声認識結果７０６の中のキーワード７０６Ａ（即ち、「再遊記」）のピンインと各制御エレメントの複数のサブ部分の中の各サブ部分のピンインとをマッチングする。例えば、音声認識結果７０６のキーワード「再遊記」のピンインと制御エレメント７０５の複数のサブ部分の中の各サブ部分のピンインとをマッチングしてマッチング結果が得られ、マッチング結果は、制御エレメント７０５の中のサブ部分「西遊記」のピンインと音声認識結果７０６の中のキーワード「再遊記」のピンインとがマッチしたため、制御エレメント７０５を目標制御エレメントとして特定する。

次に、音声認識結果７０６の中のキーワード「再遊記」と目標制御エレメントの文字的記述「西遊記」とをマッチングして、両方が一致しないため、音声認識結果７０６の中のキーワード「再遊記」を目標制御エレメントの文字的記述「西遊記」に置き換えて、置き換えた後の音声認識結果７０６’が得られ、置き換えた後の音声認識結果７０６’は、例えば「西遊記を再生してください」であり、置き換えた後の音声認識結果７０６’の中の名詞キーワード７０６Ａ’は「西遊記」である。

音声認識結果が１段落の文字を含む場合、この音声認識結果の中の、キーワード以外の他の文字は通常に共通文字であるため、キーワード以外の他の文字の認識正確性は、通常高く、これによって音声認識結果の中のキーワードを特定し、キーワードのピンインと各制御エレメントの複数のサブ部分のピンインとをマッチングすることで目標制御エレメントを特定し、そして目標制御エレメントのサブ部分と音声認識結果とをマッチングして、両方がマッチしないと、音声認識結果を目標制御エレメントのサブ部分に置き換える、と理解され得る。即ち、音声認識結果を置き換える時に、指向性を持って音声認識結果の中のキーワードを目標制御エレメントの文字的記述のサブ部分に置き換えることができることによって、マッチング及び置き換えの効率を向上し、マッチング及び置き換えの過程において必要とする計算量を低減し、置き換えた後の音声認識結果の、置き換える前の音声認識結果に対する変更程度が小さくなり、これによって置き換えた後の音声認識結果がユーザのニーズにより合致する。

図８は、本願の別の実施例による音声認識によるページ操作方法のフローチャートを模式的に示している。

図８に示すように、本願の実施例の音声認識によるページ操作方法８００は、例えば操作Ｓ８１０〜操作Ｓ８８０を含んでもよく、操作Ｓ８４０は、例えば操作Ｓ８４１〜操作Ｓ８４３を含む。

操作Ｓ８１０において、受信した音声を認識して音声認識結果を得る。

操作Ｓ８２０において、制御エレメント毎に設置された中国語形式の文字的記述を取得する。

操作Ｓ８３０において、少なくとも１つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定する。

操作Ｓ８４０において、前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示する。操作Ｓ８４０は、例えば操作Ｓ８４１〜操作Ｓ８４３を含む。

操作Ｓ８４１において、目標制御エレメントに関連する制御操作を実行して音声認識結果を表示する。

操作Ｓ８４２において、音声認識結果と目標制御エレメントの文字的記述とがマッチするかを判定する。マッチしない場合、操作Ｓ８４３を実行し、マッチした場合、終了することができる。

操作Ｓ８４３において、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示する。

操作Ｓ８２０を実行した後、及び操作Ｓ８３０を実行する前に、操作Ｓ８５０及び操作Ｓ８６０を実行してもよい。

操作Ｓ８５０において、音声認識結果をピンインに変換して、各制御エレメントの文字的記述をピンインに変換する。

操作Ｓ８６０において、音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、音声認識結果のピンインと各制御エレメントの文字的記述のピンインとがマッチするかを判定する。マッチした場合、操作Ｓ８３０を実行し、マッチしない場合、操作Ｓ８７０を実行する。

操作Ｓ８７０において、音声認識結果のピンインと少なくとも１つの制御エレメントの中の各制御エレメントの文字的記述のピンインとがマッチしない場合、音声認識結果を語義解析して語義解析結果を得る。

操作Ｓ８８０において、音声解析結果に基づいて、語義解析結果が対象としているアプリケーションプログラムを起動する。

例えば、音声認識結果が「ナビゲーションを起動してください」である場合、音声認識結果のピンインといずれの制御エレメントの文字的記述のピンインともマッチしないと、この音声認識結果を語義解析して語義解析結果が得られ、語義解析結果は、ユーザが地図アプリケーションプログラムを起動してナビゲーションを行う必要があることを表した時、語義解析結果に基づいて地図アプリケーションプログラムを起動することができる。

本願の実施例は、音声認識結果のピンインといずれの制御エレメントの文字的記述のピンインともマッチしない場合、音声認識結果を語義解析してユーザの音声意図を表す語義解析結果が得られ、語義解析結果に基づいて語義解析結果が対象としているアプリケーションプログラムを起動して、ユーザのニーズを満たすように、異なる方式でユーザの音声にレスポンスすることを実現し、ユーザの使用エクスペリエンスを向上した、と理解され得る。

図９は、本願の別の実施例による音声認識結果を置き換える模式図を模式的に示している。

図９に示すように、受信した音声を認識して音声認識結果を得た後、認識された音声認識結果をそのままページ上に表示してもよい。後に音声認識結果と目標制御エレメントの文字的記述とがマッチしないと判定した場合、音声認識結果を目標制御エレメントの文字的記述に置き換えた後に、置き換えた後の音声認識結果をページ上に表示して、元の音声認識結果を上書きしてもよい。具体的に、置き換えた後の音声認識結果の中の、置き換えられたキーワードをページ上に表示して、元の音声認識結果の中のキーワードを上書きしてもよい。

音声認識結果９０１が「再遊記を再生してください」であることを例に挙げて、この「再遊記を再生してください」がページ上に表示される。この音声認識結果９０１の中のキーワード９０１Ａ（例えば、「再遊記」）と目標制御エレメントの文字的記述「西遊記」とがマッチしないため、音声認識結果９０１の中のキーワード「再遊記」を目標制御エレメントの文字的記述「西遊記」に置き換えて、置き換えた後の音声認識結果９０１’が「西遊記を再生してください」であり、置き換えた後の音声認識結果「西遊記を再生してください」がページ上に表示される。ただし、もともとページ上に表示されている音声認識結果９０１（例えば、「再遊記を再生してください」）の中の「再生してください」は、置き換えた後の音声認識結果９０１’（例えば、「西遊記を再生してください」）の中のキーワード９０１Ａ’（例えば、「西遊記」）と一緒にページ上に表示されてもよく、即ち、ページ上に表示されている音声認識結果「再遊記を再生してください」の中の「再生してください」が置き換えられずに、ずっと表示され、指向性を持ってキーワードを置き換えて表示することを実現した。

本願の実施例において、ページが電子機器のタッチスクリーンに表示されている。ユーザは、このページ上の制御エレメントをタッチすることができ、電子機器は、タッチスクリーンにページ上の制御エレメントに対するタッチに応じて、タッチされた制御エレメントに関連する制御操作を行う。

図１０は、本願の一実施例によるページ模式図を模式的に示している。

図１０に示すように、本願の実施例のページはウェブページを含んでもよく、ページ上の制御エレメントは、ウェブアドレス１００１と、ピクチャ１００２と、アイコン１００３と、文字１００４との少なくとも１つを含み、目標制御エレメントに関連する制御操作は、ウェブアドレス１００１と、ピクチャ１００２と、アイコン１００３と、文字１００４との少なくとも１つに関連するリンクアドレスにアクセスすることを含む。

例えば、ユーザがウェブアドレス１００１をタッチした時、このウェブアドレス１００１に関連する制御操作を実行し、例えば、このウェブアドレス１００１に対応するウェブページへ遷移する。ユーザがピクチャ１００２（このピクチャ１００２は、例えば、ドラマ「西遊記」に対応するピクチャである）をタッチした時、このピクチャ１００２に関連する制御操作を実行し、例えば、ドラマ「西遊記」の関連情報を展示するウェブページへ遷移する。ユーザがアイコン１００３（このアイコン１００３は、例えば、再生アイコンである）をタッチした時、このアイコン１００３に関連する制御操作を実行し、例えば、ドラマ「西遊記」を再生する。ユーザが文字１００４をタッチした時、この文字１００４に関連する制御操作を実行し、例えば、ドラマ「紅楼夢」を再生し、又はドラマ「紅楼夢」の関連情報を展示するウェブページへ遷移する。

図１１は、本願の別の実施例によるページ模式図を模式的に示している。

図１１に示すように、本願の実施例のページは、アプリケーションプログラムのインターフェースを含み、制御エレメントは、ピクチャ１１０１と、アイコン１１０２と、文字１１０３との少なくとも１つを含み、目標制御エレメントに関連する制御操作は、ビデオを再生することと、オーディオを再生することと、リストを展示することとの少なくとも１つを含む。

ユーザがピクチャ１１０１をタッチした時、このピクチャ１１０１に関連する制御操作を実行し、例えば、歌のビデオを再生する。ユーザがアイコン１１０２をタッチした時、このアイコン１１０２に関連する制御操作を実行し、例えばオーディオを再生し、例えば「ＸＸＸ歌」を再生する。ユーザが文字１１０３をタッチした時、この文字１１０３に関連する制御操作を実行し、例えばリストを展示し、例えば歌手リストを展示する。

上記に示したページは、あくまで本願の実施例の技術案を理解しやすくするために提供した例示に過ぎず、本願の実施例のページは、上記に示したページを含むが、これらに限られない。本願の実施例のページは、任意の形式のページを含んでもよい、と考えられる。

本願の実施例の音声認識によるページ操作方法は、クラウドコンピューティングによって実行されてもよく、例えば、音声認識によるページ操作方法は、クラウドで実行されてもよい。具体的に、ユーザの音声を認識して音声認識結果が得られ、ピンイン変換及びピンイン対比によって目標制御エレメントを特定し、音声認識結果と目標制御エレメントの文字的記述とをマッチングし、音声認識結果を音声認識するなどの工程は、いずれもクラウドで実行され、実行結果が得られてもよく、クラウドが実行結果を電子機器に送信して電子機器ローカルに記憶させてもよく、電子機器によって音声認識結果を目標制御エレメントの文字的記述に変換して表示する。

図１２は、本願の実施例による音声認識によるページ操作装置のブロック図を模式的に示している。

図１２に示すように、本願の実施例の音声認識によるページ操作装置１２００は、例えば、認識モジュール１２１０と、取得モジュール１２２０と、特定モジュール１２３０と、表示モジュール１２４０とを含む。

認識モジュール１２１０は、受信した音声を認識して、音声認識結果を得ることに用いることができる。本願の実施例によれば、認識モジュール１２１０は、例えば、前文で図２を参照して説明した操作Ｓ２１０を実行することができ、ここでは説明を省略する。

取得モジュール１２２０は、制御エレメント毎に設置された中国語形式の文字的記述を取得することに用いることができる。本願の実施例によれば、取得モジュール１２２０は、例えば、前文で図２を参照して説明した操作Ｓ２２０を実行することができ、ここでは説明を省略する。

特定モジュール１２３０は、少なくとも１つの制御エレメントから、文字的記述のピンインが音声認識結果のピンインとマッチした目標制御エレメントを特定することに用いることができる。本願の実施例によれば、特定モジュール１２３０は、例えば、前文で図２を参照して説明した操作Ｓ２３０を実行することができ、ここでは説明を省略する。

表示モジュール１２４０は、前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示することができ、ただし、音声認識結果と目標制御エレメントの文字的記述とがマッチしない場合、音声認識結果を目標制御エレメントの文字的記述に置き換えて表示する。本願の実施例によれば、表示モジュール１２４０は、例えば、前文で図２を参照して説明した操作Ｓ２４０を実行することができ、ここでは説明を省略する。

本願の実施例によれば、本願は、さらに電子機器及び読取可能な記憶媒体を提供する。

図１３は、本願の実施例の音声認識によるページ操作方法を実現するための電子機器のブロック図である。

図１３に示すように、本願の実施例による音声認識によるページ操作方法の電子機器１３００のブロック図である。電子機器１３００は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータと、デスクトップコンピュータと、ワークベンチと、パーソナル・デジタル・アシスタントと、サーバと、ブレードサーバと、大型コンピュータと、他の適宜なコンピュータとを表す。電子機器は、様々な形態の移動装置、例えば、パーソナル・デジタル・アシスタントと、携帯電話と、スマートフォンと、ウェアラブル機器と、他の類似する計算装置とを表してもよい。本明細書に示す部品と、それらの接続関係と、それらの機能は、単に例示であり、本明細書で説明及び／又は要求した本願の実現を限定することを意図しない。

図１３に示すように、この電子機器１３００は、１つ又は複数のプロセッサ１３１０と、メモリ１３２０と、各部品を接続するための高速インターフェース及び低速インターフェースを含むインターフェースとを含む。各部品は、別々のバスで互いに接続され、共通のマザーボードに実装され、又は、必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器１３００内で実行される命令を処理することができ、この命令は、メモリ中又はメモリ上に記憶されて、外部の入力・出力装置（例えば、インターフェースに結合された表示デバイス）にＧＵＩの図形情報を表示する命令を含む。他の実施形態において、必要に応じて、複数のプロセッサ及び／又は複数のバスと複数のメモリとを一緒に使用してもよい。同様に、複数の電子機器１３００を接続して、各機器が一部の必要な操作を提供してもよい（例えば、サーバアレー、一組のブレードサーバ、又はマルチプロセッサシステムとする）。図１３は、１つプロセッサ１３１０を例にしている。

メモリ１３２０は、本願が提供した不揮発性のコンピュータ読取可能な記憶媒体である。メモリは少なくとも１つのプロセッサによって実行され得る命令を記憶しており、少なくとも１つのプロセッサに本願が提供した音声認識によるページ操作方法を実行させる。本願の不揮発性のコンピュータ読取可能な記憶媒体は、コンピュータ命令を記憶し、このコンピュータ命令は、コンピュータに本願が提供した音声認識によるページ操作方法を実行させるためのものである。

メモリ１３２０は、不揮発性のコンピュータ読取可能な記憶媒体として、不揮発性のソフトウェアプログラムと、不揮発性のコンピュータ実行可能なプログラム及びモジュールと、本願の実施例における音声認識によるページ操作方法に対応するプログラム命令／モジュール（例えば、図１２に示す認識モジュール１２１０と、取得モジュール１２２０と、特定モジュール１２３０と、表示モジュール１２４０）とを記憶するためのものである。プロセッサ１３１０は、メモリ１３２０に記憶されている不揮発性のソフトウェアプログラムと、命令と、モジュールとを実行することで、サーバの各機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における音声認識によるページ操作方法を実現する。

メモリ１３２０は、オペレーティング・システム、少なくとも１つの機能が必要とするアプリケーションプログラムを記憶することができるプログラム記憶エリア、及び音声認識によるページ操作の電子機器１３００の使用によって形成されたデータなどを記憶することができるデータ記憶領域を含んでもよい。また、メモリ１３２０は、高速ランダムアクセスメモリを含んでもよく、不揮発性メモリ、例えば、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ、又は他の不揮発性ソリッドメモリを含んでもよい。一部の実施例において、メモリ１３２０は、選択的に、プロセッサ１３１０に対して遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークを通じて音声認識によるページ操作の電子機器１３００に接続されてもよい。上述したネットワークの実例は、インターネットと、イントラネットと、ローカルエリアネットワークと、移動通信ネットワークと、それらの組合せとを含むが、それらに限られない。

音声認識によるページ操作方法の電子機器１３００は、入力装置１３３０と、出力装置１３４０とをさらに含んでもよい。プロセッサ１３１０と、メモリ１３２０と、入力装置１３３０と、出力装置１３４０とは、バス又は他の方式によって接続されてもよく、図１３においてバスによって接続されることを例にしている。

入力装置１３３０は、入力されたデジタル又はキャラクター情報を受信し、音声認識によるページ操作の電子機器１３００のユーザ設定及び機能制御に関わるキー信号入力を発生してよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、１つ又は複数のマウスボタン、トラックボール、レバーなどの入力装置である。出力装置１３４０は、表示デバイスと、補助照明装置（例えば、ＬＥＤ）と、触覚フィードバック装置（例えば、振動モーター）などを含んでもよい。この表示デバイスは、液晶ディスプレー（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレー、プラズマディスプレーを含むが、これらに限られない。一部の実施形態において、表示デバイスはタッチスクリーンであってもよい。

ここで説明したシステム及び技術の各実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せで実現されてもよい。これらの各実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含んでもよく、この１つまたは複数のコンピュータプログラムが、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されてもよく、このプログラマブルプロセッサは、専用又は共通のプログラマブルプロセッサであってもよく、記憶システムと、少なくとも１つの入力装置と、少なくとも１つの出力装置とからデータと命令とを受信し、データと命令とをこの記憶システムと、この少なくとも１つの入力装置と、この少なくとも１つの出力装置とに伝送してもよい。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも称する）は、プログラマブルプロセッサの機械命令を含み、高級プロセス及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ・機械言語によってこれらの計算プログラムを実施してもよい。本明細書で使用した用語「機械読取可能な媒体」及び「コンピュータ読取可能な媒体」とは、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を意味しており、機械読取可能な信号である機械命令を受ける機械読取可能な媒体を含む。用語「機械読取可能な信号」とは、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を意味している。

ユーザとのインタラクティブを提供するために、コンピュータ上にここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレー）モニタ）と、キーボード及び指向装置（例えば、マウス又はトラックボール）とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクティブを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（声入力、語音入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム（例えば、データサーバとする）、又はミドルウェア部品を含む計算システム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含む計算システム（例えば、グラフィカル・ユーザー・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザー・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とインタラクティブすることができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）と、広域ネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクティブする。相応するコンピュータ上で実行されるとともに、互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。

前に示す様々な形式のフローを利用して、ステップを並び替え、増加又は削除することができると理解されるべきである。例えば、本願に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本願が開示した技術案が所望する結果を実現できる限り、本明細書はここで限定しない。

上述した具体的な実施形態は、本願の保護範囲に対する限定を構成しない。当業者にとって、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置き換えを行えることが、自明なことである。本願の趣旨と原則の範囲内になされた任意の修正、等価な置き換え、改進などは、いずれも本願の保護範囲内に含まれるべきである。

Claims

音声認識によるページ操作方法であって、前記ページは、少なくとも１つの制御エレメントを含み、前記方法は、
受信した音声を認識して、音声認識結果を得ることと、
制御エレメント毎に設置された中国語形式の文字的記述を取得することと、
前記少なくとも１つの制御エレメントから、文字的記述のピンインが前記音声認識結果のピンインとマッチした目標制御エレメントを特定することと、
前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、ただし、前記音声認識結果と前記目標制御エレメントの文字的記述とがマッチしない場合、前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示することと、を含む
ページ操作方法。
前記少なくとも１つの制御エレメントから、目標制御エレメントを特定することは、
前記音声認識結果をピンインに変換することと、
各制御エレメントの文字的記述をピンインに変換することと、
前記音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングして、前記音声認識結果のピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定することと、を含む
請求項１に記載の方法。
前記少なくとも１つの制御エレメントの中の各制御エレメントの文字的記述は、複数のサブ部分を含み、
前記音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングすることは、前記音声認識結果のピンインと各制御エレメントの前記複数のサブ部分の中の各サブ部分のピンインとをマッチングすることを含み、
前記音声認識結果のピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定することは、少なくとも１つのサブ部分のピンインが前記音声認識結果のピンインとマッチした制御エレメントを前記目標制御エレメントとして特定することを含む
請求項２に記載の方法。
前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示することは、前記音声認識結果を前記目標制御エレメントの文字的記述の中の前記少なくとも１つのサブ部分に置き換えて表示することを含む
請求項３に記載の方法。
前記音声認識結果のピンインと各制御エレメントの文字的記述のピンインとをマッチングすることは、前記音声認識結果の中のキーワードを特定し、前記キーワードのピンインと前記制御エレメントの文字的記述のピンインとをマッチングすることを含み、
前記音声認識結果のピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定することは、前記キーワードのピンインとマッチしたピンインを有する制御エレメントを目標制御エレメントとして特定することを含む
請求項２に記載の方法。
前記音声認識結果の中のキーワードを特定することは、
前記音声認識結果の中の各単語の品詞を特定することと、
前記音声認識結果の中の名詞を前記キーワードとすることと、を含む
請求項５に記載の方法。
前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示することは、前記音声認識結果の中のキーワードを前記目標制御エレメントの文字的記述に置き換えて表示することを含む
請求項５に記載の方法。
前記音声認識結果のピンインと前記少なくとも１つの制御エレメントの中の各制御エレメントの文字的記述のピンインとがマッチしない場合、前記音声認識結果を語義解析して語義解析結果を得ることと、
前記音声認識結果に基づいて前記語義解析結果が対象としているアプリケーションプログラムを起動することと、をさらに含む
請求項１に記載の方法。
前記ページがタッチスクリーンに表示され、
前記方法は、
タッチスクリーンに前記ページ上の制御エレメントに対するタッチに応じて、前記タッチされた制御エレメントに関連する制御操作を実行することをさらに含む
請求項１〜８のいずれか一項に記載の方法。
前記ページは、ウェブページを含み、前記制御エレメントは、ウェブアドレスと、ピクチャと、アイコンと、文字との少なくとも１つを含み、前記目標制御エレメントに関連する制御操作は、ウェブアドレスと、ピクチャと、アイコンと、文字との少なくとも１つに関連するリンクアドレスにアクセスすることを含む
請求項１〜８のいずれか一項に記載の方法。
前記ページは、アプリケーションプログラムのインターフェースを含み、制御エレメントは、ピクチャと、アイコンと、文字との少なくとも１つを含み、前記目標制御エレメントに関連する制御操作は、ビデオを再生することと、オーディオを再生することと、リストを展示することとの少なくとも１つを含む
請求項１〜８のいずれか一項に記載の方法。
音声認識によるページ操作装置であって、前記ページは、少なくとも１つの制御エレメントを含み、
前記装置は、
受信した音声を認識して、音声認識結果を得る認識モジュールと、
制御エレメント毎に設置された中国語形式の文字的記述を取得する取得モジュールと、
前記少なくとも１つの制御エレメントから、文字的記述のピンインが前記音声認識結果のピンインとマッチした目標制御エレメントを特定する特定モジュールと、
前記目標制御エレメントに関連する制御操作を実行して前記音声認識結果を表示し、ただし、前記音声認識結果と前記目標制御エレメントの文字的記述とがマッチしない場合、前記音声認識結果を前記目標制御エレメントの文字的記述に置き換えて表示する表示モジュールと、を含む
ページ操作装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続するメモリとを含む電子機器であって、
前記メモリに、前記少なくとも１つのプロセッサによって実行され得る命令を記憶しており、前記命令が前記少なくとも１つのプロセッサによって実行されることによって、前記少なくとも１つのプロセッサが請求項１〜１１のいずれか一項に記載の方法を実行することができる、
電子機器。
コンピュータに請求項１〜１１のいずれか一項に記載の方法を実行させるためのコンピュータ命令を記憶している不揮発性のコンピュータ読取可能な記憶媒体。
実行される際に、請求項１〜１１のいずれか一項による方法を実現するコンピュータ命令を含むコンピュータプログラム。