JP2020042784A

JP2020042784A - インテリジェント端末操作用の方法及び装置

Info

Publication number: JP2020042784A
Application number: JP2019129431A
Authority: JP
Inventors: チンション; Qin Xiong; ガオフェイチェン; Gaofei Cheng; レイレイガオ; Lei Lei Gao; フェイワン; Fei Wang; ユエリュウ; Yue Liu; ウェンリンドン; Wenlin Dong
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-09-10
Filing date: 2019-07-11
Publication date: 2020-03-19
Also published as: US11308942B2; CN109036425A; US20200082814A1; CN109036425B

Abstract

【課題】インテリジェント端末の操作において、ユーザーが完璧な音声指令を入力しなくても知的にユーザ指令を捕捉することができる方法、装置、サーバー及び媒体を提供する。【解決手段】インテリジェント端末操作用の方法は、現在入力のユーザー音声指令を現在テキスト指令に解析するステップ２０１と、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索するステップ２０２と、検索された履歴テキスト指令レコードを解析してユーザー意図を得るステップ２０３と、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信するステップ２０４と、リソースライブラリから返された応答及びユーザー意図に基づいて、動作コンポーネントに動作の実行を指示するステップ２０５と、を含む。【選択図】図２

Description

発明の詳細な説明

［技術分野］
本願はコンピュータの技術分野に関しており、詳細にはコンピュータネットワークの技術分野に関して、特にインテリジェント端末操作用の方法及び装置に関する。
［背景技術］

音声インテリジェントデバイスが発展しつつあることに伴って、音声インタラクションがどのようにユーザーの要求をよりよく満たすのかは、難しい課題になる。

目下、音声操作技術は、依然として、言った内容がそのまま読み取られるとの発展段階にあり、リソースライブラリサーバーは、ユーザーが今回言った指令のみを解析し、その解析結果に対応する最終の実行指令をインテリジェントデバイス側に返し、且つ、インテリジェントデバイスで実行命令に従う操作を実行させることである。

しかし、現在、メディアリソースは、名称が理解しにくい場合や、名称が長すぎる場合があるが、ユーザーは、テレビドラマの『お前のために、僕は、＊＊＊＊＊＊たいと願っている』を見ようとする場合、インテリジェントデバイスから正しい応答を取得し得るために、このドラマを見る度に、インテリジェントデバイスに向かって、「『お前のために、僕は、＊＊＊＊＊＊たいと願っている』を見たい」と言う必要がある。これは、ユーザーにとって不便である。

本願実施例は、インテリジェント端末操作用の方法及び装置を提供する。

第１の態様では、本願の実施例はインテリジェント端末操作用の方法を提供しており、この方法は、現在入力のユーザー音声指令を現在テキスト指令に解析することと、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索することと、検索された履歴テキスト指令レコードを解析してユーザー意図を得ること、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信することと、リソースライブラリから返された応答及びユーザー意図に基づいて、動作コンポーネントに動作の実行を指示することと、を含む。

ある実施例において、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索することは、現在テキスト指令について単語分割を行って、現在テキスト指令の対応した単語列を得ることと、単語列と、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットにおける各履歴テキスト指令レコードとの類似度を算出することと、類似度の高い順で、類似度が最も高い履歴テキスト指令レコードを、検索された履歴テキスト指令レコードとして取得すること、を含む。

幾つかの実施例において、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索することは、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、最大マッチングアルゴリズムにより現在テキスト指令にマッチした履歴テキスト指令レコードを検索すること、を含む。

幾つかの実施例において、履歴ユーザー音声指令は、所定の履歴期間内に記憶されたユーザー音声指令である。

幾つかの実施例において、リソースライブラリから返された応答及びユーザー意図に基づいて、動作コンポーネントに動作の実行を指示することは、もしリソースライブラリから返された応答が、指令が正しく解析されなかったことを表していれば、指令が正しく解析されなかったことをユーザーに提示し、もしリソースライブラリから返された応答が、指令が正しく解析されたことを表していれば、解析された正しい指令に基づいて、ユーザーに対してユーザー意図が示された操作を実行すること、を含む。

第２の様態では、本願の実施例は、インテリジェント端末操作用の装置を提供しており、該装置は、現在入力のユーザー音声指令を現在テキスト指令を解析するように構成されたテキスト解析ユニットと、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索するように構成されたレコード検索ユニットと、検索された履歴テキスト指令レコードを解析してユーザー意図を得るように構成された意図解析ユニットと、ユーザー意図に基づいて生成されたニットと、リソースライブラリから返された応答及びユーザー意図に基づいて、動作コンポーネントに動作の実行を指示するように構成された動作実行ユニットと、を含む。

幾つかの実施例において、レコード検索ユニットは、更に、現在テキスト指令について単語分割を行って現在テキスト指令に対応する単語列を得て、単語列と、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットにおける各履歴テキスト指令レコードとの類似度を算出し、類似度の高い順で、類似度が最も高い履歴テキスト指令レコードを、検索された履歴テキスト指令レコードとして取得する、ように構成された。

幾つかの実施例において、レコード検索ユニットは、更に、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、最大マッチングアルゴリズムにより、現在テキスト指令にマッチした履歴テキスト指令レコードを検索する、ように構成された。

幾つかの実施例において、レコード検索ユニットにおける履歴ユーザー音声指令は、所定の履歴期間内に記憶されたユーザー音声指令である。

幾つかの実施例において、動作実行ユニットは、さらに、もしリソースライブラリから返された応答が、指令を正しく解析されなかったことを表していれば、指令が正しく解析されなかったことをユーザーに提示し、もしリソースライブラリから返された応答が、指令が正しく解析されたことを表していれば、解析された正しい指令に基づいて、ユーザーに対してユーザー意図の示された操作を実行する。

第３の様態では、本願の実施例は、機器であって、一つまたは複数のプロセッサーと、一つまたは複数のプログラムが記憶されている記憶装置とを含み、一つまたは複数のプログラムが一つまたは複数のプロセッサーに実行されると、一つまたは複数のプロセッサーに上記いずれか一つの実施例に記載の方法を実現させる機器を提供する。

第４の様態では、本願の実施例が、コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体であって、該プログラムはプロセッサーに実行されると、上記いずれか一つの実施例に記載の方法を実現させるコンピュータ読み取り可能な媒体を提供する。

本願の実施例の提供するインテリジェント端末操作用の方法及び装置は、まず、現在入力のユーザー音声指令を現在テキスト指令に解析し、次に、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索し、次に、検索された履歴テキスト指令レコードを解析してユーザー意図を得て、次に、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信し、最後に、リソースライブラリから返された応答に基づいて、ユーザー意図が示された操作の実行を動作コンポーネントに指示する。この過程において、ユーザーが完璧な音声指令を入力しなくても知的にユーザー指令を補足することができ、且つ更に補足されたユーザー指令のクラウドでの最新の分析結果に基づいて、ユーザーに情報をプッシュすることにより、ユーザーが音声インテリジェントデバイスを使用する時のコストが低下し、インテリジェントデバイスに対するユーザー体験が向上し、インテリジェント音声技術の評判を向上させることができ、人工知能（ＡＩ）に関する技術の製品化の達成を促進することができる。

図面を参照してなされた非限定的な実施例に対する詳細な記述により、本発明の他の特徴、目的及び利点は一層明らかになる。
本発明が適用可能な例示的なシステムアーキテクチャ図である。本願実施例に係るインテリジェント端末操作用の方法の一実施例のフローチャートである。本願実施例に係るインテリジェント端末操作用の方法の一つの適用シナリオの模式図である。本願実施例に係るインテリジェント端末操作用の方法の他の実施例のフローチャートである。本願実施例に係るインテリジェント端末操作用装置の一実施例の概略構造図である。本願実施例に係るサーバーを達成するためのコンピュータシステムの概略構造図である。

以下、図面及び実施例を参照しながら本願を更に詳細に説明する。言うまでもなく、ここで記述される具体的な実施例は、かかる発明を説明するためのものに過ぎず、本発明を限定するものではない。なお、説明の便宜上、図面に発明と関係する部分のみが示されている。

なお、矛盾を生じない限り、本願における実施例及び実施例における特徴を互いに組み合わせることができる。以下、図面を参照しながら実施例に基づいて本願を詳細に説明する。

図１の示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバー１０５、１０６を含んでもよい。ネットワーク１０４は、端末装置１０１、１０２、１０３と、サーバー１０５、１０６との間に、通信リンクを提供する媒体であってもよい。ネットワーク１０４は、例えば有線、無線通信リンクまたは光ファイバーケーブル等、様々な類別を含んでもよい。

ユーザー１１０は、端末装置１０１、１０２、１０３を利用してネットワーク１０を介してサーバー１０５、１０６とインタラクションすることにより、情報等を受送信することができる。端末装置１０１、１０２、１０３には、例えばビデオキャプチャアプリケーション、ビデオ再生アプリケーション、インスタントコミュニケーションツール、電子メールクライアント、ソーシャルプラットフォームソフトウェア、検索エンジンアプリ、ショッピングアプリ等、様々な通信クライアントアプリケーションがインストールされてもよい。

端末装置１０１、１０２、１０３は、表示画面を備える様々な電子機器でもよく、インテリジェントフォン、タブレット、電子書籍リーダー、ＭＰ３プレーヤー（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ、ＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｃｏｍｐｒｅｓｓｅｓｓｔａｎｄａｒｄａｕｄｉｏｌａｙｅｒｓ３）、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、ＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｃｏｍｐｒｅｓｓｅｓｓｔａｎｄａｒｄａｕｄｉｏｌａｙｅｒｓ４）プレーヤー、ラップトップポータブルコンピュータ及びデスクトップコンピュータ等を含んでもよいが、これらに限られない。

サーバー１０５や１０６は、例えば端末装置１０１、１０２、１０３をサポートするバックグラウンドサーバーなどのような、様々なサービスを提供するサーバーであってもよい。バックグラウンドサーバーは、端末から提出された数据に対して分析、記憶または演算等の処理を行い、その分析、記憶または演算された結果を端末装置にプッシュすることができる。

なお、実際には、本願実施例によるインテリジェント端末操作用の方法は、普通、サーバー１０５、１０６により実行されており、それに応じて、インテリジェント端末操作用の装置は、普通、サーバー１０５、１０６に設けられている。しかし、端末装置の性能はこの方法の実行条件またはこの設備の構成条件を満たす場合に、本願実施例によるインテリジェント端末操作用の方法は、端末装置１０１、１０２、１０３により実行されてもよく、インテリジェント端末操作用の装置は、端末装置１０１、１０２、１０３に設けられてもよい。

図１における端末、ネットワーク及びサーバーの数は、例示的なものと理解すべきである。実際の必要に応じて任意の数の端末、ネットワーク及びサーバーを備えてもよい。

図２を引き続き参照すると、本願に係るインテリジェント端末操作用の方法の一実施例であるフロー２００が示されている。該インテリジェント端末操作用の方法は、以下のステップを含む。

ステップ２０１において、現在入力のユーザー音声指令を現在テキスト指令に解析する。

本実施例において、前記インテリジェント端末操作用の方法が実行される電子機器（例えば図１の示すようなサーバーまたは端末）は、マイクアレイによりファーフィールド音声を取得し、又はマイクによりニアフィールド音声を取得することにより、ユーザーから入力されたユーザー音声指令を取得することができ、その後、ユーザー音声インタラクション指令を現在テキスト指令に変換するとともに、幾つかの既知のエラーを訂正して調整することができる。

具体的な例において、現在入力のユーザー音声指令は「『お前のために、僕は、』を見たい」であってもよい。すると、このユーザー音声指令を現在テキスト指令である「『お前のために、僕は、』を見たい」として解析することができる。

本実施例の幾つかの選択可能な実施形態において、履歴ユーザー音声指令は所定の履歴期間内に記憶されたユーザー音声指令である。

本実施形態において、現在入力のユーザー音声指令を履歴テキスト指令レコードセットに記憶してもよい。この履歴テキスト指令レコードセットは、予定の履歴期間内に入力されたユーザー音声指令を格納可能である。例えば、一ヶ月、一週間または一日内に入力されたユーザー音声指令を格納しても良い。

ステップ２０２において、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索する。

本実施例において、ステップ２０１で得られた現在テキスト指令を入力として、マッチングアルゴリズムにより、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、音声が補足された履歴テキスト指令レコードであって、最もマッチした履歴テキスト指令レコードを特定することができる。

具体的な実例において、現在テキスト指令が「『お前のために、僕は、』を見たい」であり、履歴ユーザー音声指令セットにおける対応する履歴テキスト指令レコードセットの中から検索した最もマッチした音声補足された履歴テキスト指令レコードが「『お前のために、僕は、＊＊＊＊＊＊たいと願っている』をみたい」である。

本実施例の一つの選択可能な実施形態において、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索することは、現在テキスト指令に対して単語分割を行って、現在テキスト指令の対応する単語列を得ること、単語列と履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットにおける各履歴テキスト指令レコードとの類似度を算出すること、類似度の高い順で、類似度の最も高い履歴テキスト指令レコードを、検索された履歴テキスト指令レコードとして取得すること、を含む。

本実施形態において、単語分割とは、現在テキスト指令を別々の単語に分割して、単語列を得ることである。履歴ユーザー音声指令レコードセットに対応する履歴テキスト指令レコードセットについて、単語列を、各履歴テキスト指令レコードと比較して、それらの類似度を得るとともに、類似度の高い順で、類似度が最も高い履歴テキスト指令レコードを、検索された履歴テキスト指令レコードとして取得することができる。

ステップ２０３において、検索された履歴テキスト指令レコードを解析してユーザー意図を得る。

本実施例において、補足された履歴テキスト指令レコードを解析してユーザー意図を得ることができる。解析という操作は、ローカルまたはクラウドサーバーにて行うことができる。例えば、補足された指令を解析サーバーに送信して解析することにより、解析サーバーから返された最新の解析結果を得ることができる。

解析の時に、音声が補足された履歴テキスト指令レコードに対して単語分割や語義理解などの処理を実行することで、ユーザーが表現したい意図、及びユーザーが認識してもらいたい主体を、的確に得ることができる。

一つの具体的な実例において、検索された履歴テキスト指令レコードである「『お前のために、僕は、＊＊＊＊＊＊たいと願っている』をみたい」について、単語分割や語義理解を行ってユーザーが表現したい意図における主語の「僕」、意欲単語の「たい」、動作の「見」及び対象名称の「お前のために、僕は、＊＊＊＊＊＊＊たいと願っている」を得る。

ここの解析結果は、最新の解析結果であると理解すべきである。解析の時に使用される解析データベースまたは解析辞書は継続して更新しつつあるものなので、同じ履歴テキスト指令レコードに対しても、同じ履歴テキスト指令レコードへの解析が、異なる解析結果を得ることもある。例えば、更新中の映画の場合、「『＊＊＊』を見たい」とは、新上映になったばかりの『＊＊＊第２部』を指すことも可能である。

ステップ２０４において、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信する。

本実施例において、ステップ２０３にてユーザー意図を解析した後、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信することができる。言うまでもなく、このリソースライブラリは、クラウド側に備えられてもよいし、ローカル側に備えられてもよい。仮にこのリソースライブラリ及び前記解析操作を実行するモジュールはともにクラウド側に設けられている場合に、このリソースライブラリ及び前記解析操作を実行するモジュールは、同じサーバーに設けられてもよいが、異なるサーバーに設けられてもよい。

ある具体的な実例において、リソースライブラリに、「『お前のために、僕は、＊＊＊＊＊＊たいと願っている』を見たい」というユーザー意図に基づいて生じた「僕は、＊＊＊＊＊＊たいと願っている」を取得するための要求を送信することができる。

ステップ２０５において、リソースライブラリから返された応答及びユーザー意図に基づいて、動作コンポーネントに対し動作の実行を指示する。

本実施例において、リソースライブラリに返された応答は、指令を正しく解析したものであるか否かに応じて、次の操作を決定することができる。もし、指令が正しく解析されなかった場合に、指令が正しく解析されなかったことをユーザーに提示可能であり、もし、指令が既に正しく解析された場合に、応答により返されたリソースがユーザーに要求されたリソースであり、この場合に、ユーザーに対してユーザー意図によって示された操作を実行することができる。

一つの具体的な例において、リソースライブラリにより返された応答である『僕は、＊＊＊＊＊＊たいと願っている』の最新のリソースを得た後、ユーザー意図における「たい」「見」、「僕は、＊＊＊＊＊＊たいと願っている」との内容に基づいて、この最新のリソースの『僕は、＊＊＊＊＊＊たいと願っている』を再生することができる。

本願の上記実施例におけるインテリジェント端末操作用の方法は、まず、現在入力のユーザー音声指令を現在テキスト指令に解析し、次に履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索し、次に、検索した履歴テキスト指令レコードを解析してユーザー意図を得て、次に、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信し、最後に、リソースライブラリから返された応答に基づいて、動作コンポーネントに対し、ユーザー意図に示された操作の実行を指示する。この過程において、ユーザーが完璧な音声指令を入力しなくても知的にユーザー指令を補足することができ、更に補足されたユーザー指令の最新の解析結果に基づいて、情報をユーザーにプッシュすることができ、ユーザーが音声インテリジェントデバイスを利用する時のコストが低下し、インテリジェントデバイスのユーザー体験が改善され、インテリジェント音声技術の評価を向上させることができ、ＡＩ技術の製品化の達成を促進することができる。

図３を引き続き参照して、本願に係るインテリジェント端末操作用の方法の例示的な適用シナリオを説明する。

図３に、本願に係るインテリジェント端末操作用の方法の一つの適用シナリオの模式フローチャートが示されている。

図３の示すように、インテリジェント端末操作用の方法３００は、電子機器３１０に実行される方法であって、
まず、現在入力のユーザー音声指令３０１を現在テキスト指令３０２に解析すること、
次に、履歴ユーザー音声指令３０３に対応する履歴テキスト指令レコード３０４の中から、現在テキスト指令３０２にマッチした履歴テキスト指令レコード３０５を検索すること、
そして、検索された履歴テキスト指令レコード３０５を解析して、ユーザー意図３０６を得ること、
その後、ユーザー意図に基づいて生成されたユーザー要求３０７をリソースライブラリに送信すること、
最後に、リソースライブラリから返された応答３０８に基づいて、動作コンポーネントに対しユーザー意図が示された操作３０９の実行を指示すること、を含んでもよい。

言うまでもなく、前記図３に示すインテリジェント端末操作用の方法の適用シナリオは、インテリジェント端末操作用の方法を例示的に記述するためのものに過ぎず、この方法に対する限定ではない。例えば、前記図３に示される各ステップには、更により詳細な実現方法を使用することができる。

更に、図４を参照して、本願に係るインテリジェント端末操作用の方法の一実施例のフローを示している。

図４に示すように、このインテリジェント端末操作用の方法４００は、以下ステップを有する。

ステップ４０１において、現在入力のユーザー音声指令を現在テキスト指令に解析する。

本実施例において、上記インテリジェント端末操作用の方法が実行されている電子機器（例えば図１に示すサーバーまたは端末）は、マイクアレイを通じてファーフィールド音声を取得し、或いは、マイクを通じてニアフィールド音声を取得することにより、ユーザーが入力したユーザー音声指令を取得することが可能であり、その後、ユーザー音声インタラクション指令を現在テキスト指令に変換し、幾つかの既知のエラーを訂正し調整することが可能である。

一つ具体的な実例において、現在入力のユーザー音声指令が「『お前のために』を見たい」であってもよく、この場合には、このユーザー音声指令を現在テキスト指令の「『お前のために』を見たい」に解析することができる。

本実施例の選択可能な実施形態の一部において、履歴ユーザー音声指令が所定の履歴期間内に記憶されたユーザー音声指令である。

本実施形態において、現在入力のユーザー音声指令を履歴テキスト指令レコードセットに記憶することができる。この履歴テキスト指令レコードセットは、予定の履歴期間内に入力されたユーザー音声指令を記憶できる。例えば、一ヶ月、一週間または一日内に入力されたユーザー音声指令を記憶することができる。

ステップ４０２において、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、最大マッチングアルゴリズムにより、現在テキスト指令にマッチした履歴テキスト指令レコードを検索する。

本実施例において、ステップ４０１にて得られた現在テキスト指令を入力とし、最大マッチングアルゴリズムにより、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、最もマッチした音声補足された履歴テキスト指令レコードを検索することができる。

ここでの最大マッチングアルゴリズムは、おもに最大マッチングアルゴリズム（Forward Maximum Matching Algorithm）、逆最大マッチングアルゴリズム（Reversion Maximum Match Algorithm）、双方向マッチングアルゴリズム等を含む。それらの主な原理は、全て、分割により単一ストリングを得て、そして、それをシソーラスと照合し、一つ単語であればそれを記録し、そうではないと、一つの字しか残されないまで、一つの字を増加または減少し、照合を引き続き行う。もしこの単一ストリングは分割できなければ、それを登録されないものとして取り扱う。最大マッチング原則とは、シソーラスの中から最も長いマッチした文字列を一つ単語して検索することである。例えば、「私はＡＢＣＤＥＦＧで生まれた」、最大マッチング原則に従い単語分割を行うと、単語分割結果は「私」、「ＡＢ」、「ＣＤ」、「ＥＦＧ」、「で」、「生まれた」とのものではなくて、「私」、「ＡＢＣＤＥＦＧ」「で」、「生まれた」、とのものになる。

一つ具体的な実例において、現在テキスト指令が「『お前のために』を見たい」であると、最大マッチングアルゴリズムにより、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から検出された最もマッチした音声補足された履歴テキスト指令レコードは「『お前のために、僕は、＊＊＊＊＊＊たいと願っている』を見たい」である。

ステップ４０３において、検索された履歴テキスト指令レコードを解析して、ユーザー意図を得る。

本実施例において、補足された履歴テキスト指令レコードを解析して、ユーザー意図を得ることができる。解析との操作は、ローカルサーバーにて行うことができるし、クラウドサーバーにて行うこともできる。例えば、補足された指令を解析サーバーに送信して解析し、解析サーバーから返された最新の解析結果を得ることができる。

解析の時、音声補足された履歴テキスト指令レコードに対して単語分割や語義理解等を行って、ユーザーが表現したい意図及びユーザーが認識してもらいたい主体を的確に得ることができる。

一つ具体的な例において、検索された履歴テキスト指令レコードである「『お前のために、僕は、＊＊＊＊＊＊たいと願っている』をみたい」について、単語分割や語義理解等を行って、ユーザーが表現したい意図における主語の「僕」、意欲単語の「たい」、動作の「見」及び対象名称の「お前のために、僕は、＊＊＊＊＊＊たいと願っている」を得ることができる。

言うまでもなく、ここでの解析結果は最新の解析結果である。解析の時に使用される解析データベースまたは解析辞書は引き続き更新しつつあるものなので、同じ履歴テキスト指令レコードについても、同じ履歴テキスト指令レコードに関する解析が、異なる解析結果を得ることもある。例えば、更新中の映画の場合、「『＊＊＊』を見たい」とは、新上映の『＊＊＊第２部』を見たいことを指すことが可能である。

ステップ４０４において、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信する。

本実施例において、ステップ４０３にてユーザー意図を解析してから、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信することが可能である。言うまでもなく、このリソースライブラリは、クラウドに備えられてもよいし、ローカルに備えられてもよい。もし、このリソースライブラリと上記解析操作が実行されるモジュールは、ともにクラウドに設けられる場合、このリソースライブラリ及び前記解析操作が実行されるモジュールは、同じサーバーに設けられてもよいし、異なるサーバーに設けられてもよい。

一つ具体的な実例において、ユーザー意図である「『お前のために、僕は、＊＊＊＊＊＊たいと願っている』を見たい」に基づいて生成された、『僕は、＊＊＊＊＊＊たいと願っている』を取得するための要求をリソースライブラリに送信することができる。

ステップ４０５において、リソースライブラリに返された応答及びユーザー意図に基づいて、動作コンポーネントに対し動作の実行を指示する。

本実施例において、リソースライブラリに返された応答は、指令を正しく解析したものであるか否かに応じて、次の操作を決定することができる。もし、指令が正しく解析されなかった場合に、指令が正しく解析されなかったことをユーザーに提示することができ、もし、指令が正しく解析された場合に、応答により返されたリソースは、ユーザーが要求したリソースであり、この場合に、ユーザーに対してユーザー意図に示された操作を実行することができる。

一つ具体的な実例において、リソースライブラリから返された応答である『僕は、＊＊＊＊＊＊たいと願っている』という最新のリソースを得た後、ユーザー意図における「僕」、「見」、「たい」、「僕は、＊＊＊＊＊＊たいと願っている」に応じて、この最新のリソースである『僕は、＊＊＊たいと願っている』を再生することができる。

本願の上記実施例に係るインテリジェント端末操作用の方法は、まず、現在入力のユーザー音声指令を現在テキスト指令に解析し、次に、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、最大マッチングアルゴリズムにより現在テキスト指令にマッチした履歴テキスト指令レコードを検索し、次に、検索された履歴テキスト指令レコードを解析してユーザー意図を得て、次に、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信し、最後に、リソースライブラリから返された応答に基づいて、コンポーネントに対しユーザー意図に示された操作の実行を指示する。この過程では、ユーザーが完璧な音声指令を入力しなくても、最大マッチングアルゴリズムによりユーザー指令を知的に補足して、補足されたユーザー指令の完備性を向上させることができる。更に、補足されたユーザー指令の最新の解析結果に応じて、情報をユーザーにプッシュすることにより、ユーザーが音声インテリジェントデバイスを使用する時のコストは低下し、インテリジェントデバイスのユーザー体験が改善され、インテリジェント音声の評価を向上させることができ、ＡＩ技術の製品化の達成を促進することができる。

更に図５を参照して説明すると、上記各図に示す方法の実施形態として、本願は、インテリジェント端末操作用の装置の一実施例を提供し、この装置実施例は、図１〜図４に示す方法実施例と対応するものであり、様々な電子機器に適用することが可能である。

図５に示すように、本実施例に係るインテリジェント端末操作用の装置５００は、現在入力のユーザー音声指令を現在テキスト指令に解析するように構成されたテキスト解析ユニット５１０と、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索するように構成されたレコード検索ユニット５２０と、検索された履歴テキスト指令レコードを解析してユーザー意図を得るように構成された意図解析ユニット５３０と、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信するように構成された要求送信ユニット５４０、リソースライブラリから返された応答及びユーザー意図に基づいて、動作ポーネントに動作の実行を指示するように構成された動作実行ユニット５５０とを含んでもよい。

本実施例に係るある選択可能な実施形態において、レコード検索ユニット５２０は、さらに、現在テキスト指令に対して単語分割を行って、現在テキスト指令に対応する単語列を得て、単語列と履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットにおける各履歴テキスト指令レコードとの類似度を算出し、類似度の高い順で、類似度が最も高い履歴テキスト指令レコードを検索された履歴テキスト指令レコードとして取得する、ように構成された。

本実施例の幾つかの選択可能な実施形態において、レコード検索ユニット５２０は、更に、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、最大マッチングアルゴリズムにより、現在テキスト指令にマッチした履歴テキスト指令レコードを検索する、ように構成された。

本実施例の幾つかの選択可能な実施形態において、レコード検索ユニット５２０における履歴ユーザー音声指令は、予定の履歴期間内に記憶されたユーザー音声指令である。

本実施例の幾つかの選択可能な実施形態において、動作実行ユニット５５０は、もし、リソースライブラリから返された応答が、指令が正しく解析されないことを示していれば、指令が正しく解析されなかったことをユーザーに提示する一方、リソースライブラリから返された応答が、指令が正しく解析されたことを示していれば、解析された正しい指令に応じて、ユーザーに対して、ユーザー意図が示された操作を実行する、ように構成された。

言うまでもなく、装置５００に対して記載される各ユニットは、図１〜図４を参照して記述された方法における各ステップに対応し得る。そこで、前文において方法について記述された操作及び特徴は、同様に装置５００及び含まれるユニットに適用可能であるので、ここでは繰り返して説明しない。

以下、本願の実施例のサーバーを実現したコンピュータシステム６００の概略構造図を示す図６を参照する。図６に示す端末装置またはサーバーは、ただ一つの実例に過ぎず、本願実施例の機能及び適用可能な範囲に対する如何なる限定ともならない。

図６に示すように、コンピュータシステム６００は、中央処理ユニット（ＣＰＵ）６０１を含む。この中央処理ユニット（ＣＰＵ）は、読み取り専用メモリ（ＲＯＭ）６０２に記憶されたプログラム、または記憶部分６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムに従い、様々な適宜の動作及び処理を実行可能である。ＲＡＭ６０３に、さらに、システム６００の操作に必要な様々なプログラム及びデータが記憶されている。ＣＰＵ６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を通じて互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース６０５も、バス６０４に接続される。

キーボードやマウス等を含む入力部分６０６と、例えばブラウン管（ＣＲＴ）や液晶ディスプレイ（ＬＣＤ）等及びスピーカー等を含む出力部分６０７と、ハードディスク等を含む記憶部分６０８と、例えばＬＡＮカードやモデム等のネットワークインターフェースカードを含む通信部分６０９との上記部材は、Ｉ／Ｏインターフェース６０５に接続される。通信部分６０９は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブ６１０も、更に、必要に応じて、Ｉ／Ｏインターフェースに接続される。例えばディスク、光ディスク、光磁気ディスク、半導体メモリ等のリムーバブルメディア６１１は、それから読み取られたコンピュータプログラムが必要に応じて便利に記憶部分６０８にインストールされるために、必要に応じてドライブ６１０に取り付けられる。

特に、本開示の実施例によれば、フローチャートを参照して説明された前記過程は、コンピュータソフトウェアプログラムとして実現可能である。例えば、本開示の実施例は、コンピュータプログラムプロダクトであって、コンピュータ読み取り可能な媒体上に搭載され、フローチャートに示す方法を実行するためのプログラムコードを有するコンピュータプログラムを有するコンピュータプログラムプロダクトを含む。このような実施例において、このコンピュータプログラムを、通信部分６０９によりネットワークからダウンロードし、インストールするか、及び／またはリムーバブルメディア６１１にからインストールすることができる。このコンピュータプログラムが中央処理ユニット（ＣＰＵ）６０１に実行されると、本願に係る方法に限定された前記機能を実行する。なお、本願に記載のコンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体であってもよいし、コンピュータ読み取り可能な記憶媒体であってもよいし、更に前記両者の任意の組合せであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば電気、磁気、光学、電磁気、赤外線、または半導体システムおよび装置または機器、または以上の任意の組合せであってもよいが、これらに限られない。コンピュータ読み取り可能な記憶媒体の更に具体的な例として、一つまたは複数のワイヤーを備える電気接続、ラップトップディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適当な組合せが挙げられるが、これらに限られない。本願において、コンピュータ読み取り可能な記憶媒体は、プログラムを含有、記憶する如何なる有形の媒体であってもよい。このプログラムは、指令実行システム、装置またはデバイスに使用されてもよいが、この指令実行システム、装置または機器と組み合わせて使用されてもよい。しかも、本願において、コンピュータ読み取り可能な信号媒体は、ベースバンド中で伝送されるか、またはキャリアーの一部として伝送される、コンピュータ読み取り可能なプログラムコードを搭載したデータ信号を含んでもよい。このように伝送されるデータ信号は、多種の形式とする可能であり、例えば、電磁信号、光信号または前記任意の適当な組合せであってもよいが、これらに限られたものではない。コンピュータ読み取り可能な信号媒体は、更にコンピュータ読み取り可能な記憶媒体以外の如何なるコンピュータ読み取り可能な媒体でもよい。このコンピュータ読み取り可能な媒体は、指令実行システム、装置または機器によって使用されるプログラム、或いは指令実行システム、装置または機器と組み合わせて使用できるプログラムを送信、伝送またはやり取りすることができる。コンピュータ読み取り可能な媒体に包含されたプログラムコードは、如何なる適当な媒体により送信されてもよく、有線、無線、ケーブル、ＲＦ等、または前記任意の適当な組合せが挙げられるが、これらに限られない。

図面におけるフローチャート及びブロック図は、本願の各種類の実施例におけるシステム、方法、及びコンピュータプログラムプロダクトに基づいて実現可能なアーキテクチャ、機能、及び操作を示す。この点から言えば、フローチャート及びブロック図における各ブロックは、一つのモジュール、プログラムセグメント、またはコードの一部を表すことができ、該モジュール、プログラムセグメント、またはコードの一部は、所定の論理的機能を実行するための実行可能な指令を一つまたは複数有する。更に、言うまでもなく、選択肢としての実施態様には、ブロック内のマーク付けられた機能は、図に示された順番と異なる順番で実行してもよい。例えば、連続して示された二つのブロックは、実際に、実質的に並行して実行されてもよいが、全く逆な順番で実行されてもよく、これは、かかる機能によって決まる。なお、ブロック図及び／またはフローチャートにおける各ブロック、及びブロック図及び／またはフローチャートにおけるブロックの組合せは、所定の機能または操作を実行するための専用ハードウェアに基づくシステムにより実現されてもよいし、専用ハードウェアとコンピュータ指令との組合せによりも実現されてもよい。

本願実施例に説明されたユニットは、ソフトウェアという方式で実現することができるし、ハードウェアの方式で実現することもできる。説明されたユニットは、プロセッサーに設置されてもよく、例えば、下記のように記載されても良い。プロセッサーであって、テキスト解析ユニットやレコード検索ユニットや意図解析ユニットや要求送信ユニット及び動作実行ユニットを備える。そのうち、これらのユニットの名称は、ある状況ではこのユニットそのものに対する限定とならず、例えば、テキスト解析ユニットを、「現在入力のユーザー音声指令を現在テキスト指令に解析するユニット」と記載することもできる。

他の局面として、本願は、コンピュータ読み取り可能な媒体を更に提出する。該コンピュータ読み取り可能な媒体は、前記実施例に記載の装置に含まれるものであってよいが、この装置に取り付けられずに独立に存在するものであってもよい。前記コンピュータ読み取り可能な媒体は、一つまたは複数のプログラムを搭載しており、前記一つまたは複数のプログラムがこの装置により実行されると、この装置に、現在入力のユーザー音声指令を現在テキスト指令に解析し、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、現在テキスト指令にマッチした履歴テキスト指令レコードを検索し、検索された履歴テキスト指令レコードを解析してユーザー意図を得て、ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信し、リソースライブラリから返された応答及びユーザー意図に基づいて、動作コンポーネントに、動作の実行を指示することを、実行させる。

上述した内容は、単に本願に係る望ましい実施例及び利用された技術原理に対応する説明に過ぎない。当業者にとって、本願に係る技術案の保護範囲は、上記技術特徴の特定の組合せによる技術案に限られず、更に、上記発明構想から逸脱しない限りに、上記技術特徴またはこれらに同等する特徴を任意に組み合わせてなる他の技術方案をも含むことは、言うまでもない。例えば、上記特徴と本願（これに限られない）の開示した機能と類似する技術特徴を置換して組み合わせてなる技術案も含まれる。

Claims

インテリジェント端末操作用の方法であって、
現在入力のユーザー音声指令を現在テキスト指令に解析することと、
履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセット中から、前記現在テキスト指令にマッチした履歴テキスト指令レコードを検索することと、
検索された履歴テキスト指令レコードを解析して、ユーザー意図を得ることと、
前記ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信することと、
前記リソースライブラリから返された応答及び前記ユーザー意図に基づいて、動作ポーネントに動作の実行を指示することと、
を含む、インテリジェント端末操作用の方法。
履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中で、前記現在テキスト指令にマッチした履歴テキスト指令レコードを検索することは、
前記現在テキスト指令に対して単語分割を行って、現在テキスト指令の対応する単語列を得ることと、
前記単語列と、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットにおける各履歴テキスト指令レコードとの類似度を算出することと、
類似度の高い順で、類似度が最も高い履歴テキスト指令レコードを検索された履歴テキスト指令レコードとして取得することと、
を含む、請求項１に記載の方法。
履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、前記現在テキスト指令にマッチした履歴テキスト指令レコードを検索することは、
履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、最大マッチングアルゴリズムにより前記現在テキスト指令にマッチした履歴テキスト指令レコードを検索すること、
を含む、請求項１に記載の方法。
前記履歴ユーザー音声指令は、所定の履歴期間内に記憶されたユーザー音声指令である、請求項１に記載の方法。
前記リソースライブラリから返された応答及び前記ユーザー意図に基づいて、動作コンポーネントに動作の実行を指示することは、
もし前記リソースライブラリから返された応答が、指令が正しく解析されなかったことを表していれば、指令が正しく解析されなかったことをユーザーに提示することと、
もし前記リソースライブラリから返された応答が、指令を正しく解析されたことを表していれば、解析された正しい指令に応じて、ユーザーに対して前記ユーザー意図に示された操作を実行することと、
を含む、請求項１ないし４のいずれか一項に記載の方法。
インテリジェント端末操作用の装置であって、
現在入力のユーザー音声指令を現在テキスト指令に解析するように構成されるテキスト解析ユニットと、
履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、前記現在テキスト指令にマッチした履歴テキスト指令レコードを検索するように構成されたレコード検索ユニットと、
検索された履歴テキスト指令レコードを解析してユーザー意図を得るように構成された意図解析ユニットと、
前記ユーザー意図に基づいて生成されたユーザー要求をリソースライブラリに送信するように構成された要求送信ユニットと、
前記リソースライブラリから返された応答及び前記ユーザー意図に基づいて動作コンポーネントに動作の実行を指示するように構成された動作実行ユニットと、
を含む、インテリジェント端末操作用の装置。
前記レコード検索ユニットは、更に、
前記現在テキスト指令に対して単語分割を行って、現在テキスト指令の対応する単語列を得て、
前記単語列と、履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットにおける各履歴テキスト指令レコードとの類似度を算出し、
類似度の高い順で、類似度が最も高い履歴テキスト指令レコードを検索された履歴テキスト指令レコードとして取得する、
ように構成された、請求項６に記載の装置。
前記レコード検索ユニットは、更に、
履歴ユーザー音声指令セットに対応する履歴テキスト指令レコードセットの中から、最大マッチングアルゴリズムにより前記現在テキスト指令にマッチした履歴テキスト指令レコードを検索するように構成された、請求項６に記載の装置。
前記レコード検索ユニットにおける前記履歴ユーザー音声指令は予定の履歴期間内に記憶されたユーザー音声指令である、請求項６前記的装置。
前記動作実行ユニットは、更に、
もし前記リソースライブラリから返された応答が、指令が正しく解析されなかったことを表していれば、指令を正しく解析されなかったことをユーザーに提示して、
もし前記リソースライブラリから返された応答が、指令を正しく解析されたことを表していれば、解析された正しい指令に応じて、ユーザーに対して前記ユーザー意図に示された操作を実行する、
ように構成された、請求項６ないし９いずれか一項に記載の装置。
サーバーであって、
一つまたは複数のプロセッサーと、
一つまたは複数のプログラムが記憶される記憶装置と、を含み、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサーに実行されると、前記一つまたは複数のプロセッサーに請求項１〜５のうちの何れか一項に記載の方法を実現させる、サーバー。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な媒体であって、
該プログラムがプロセッサーにより実行されると、請求項１〜５のいずれか一項の方法を実現させる、コンピュータ読み取り可能な媒体。