JP2015522892A

JP2015522892A - マルチメディア情報検索方法及び電子機器

Info

Publication number: JP2015522892A
Application number: JP2015523408A
Authority: JP
Inventors: 鵬胡; 騰張
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-08-24
Filing date: 2013-08-21
Publication date: 2015-08-06
Anticipated expiration: 2033-08-21
Also published as: CN103631802B; CN103631802A; EP2889786A1; EP2889786A4; US9704485B2; JP5948671B2; WO2014029338A1; US20150154958A1

Abstract

本発明はマルチメディア情報検索方法及び電子機器に関し、該マルチメディア情報検索方法は、検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するステップと、検索待ちマルチメディアの音声を音声認識して認識テキストを取得するステップと、認識テキストによってマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を取得するステップと、を含む。本発明はさらに電子機器に関する。本発明のマルチメディア情報検索方法及び電子機器はユーザの知りたいマルチメディア情報を自動、迅速且つ全面的にユーザに呈し、ユーザの検索効率及び検索成功率を大幅に向上させる。【選択図】図１

Description

本発明は情報検索分野に関し、特にマルチメディア情報検索方法及び電子機器に関する。

ユーザは歌を聞く時、該歌の情報をさらに知りたい希望が生じることもある。例えば、ユーザはコンピュータで比較的に好きな歌を聞いたら、更に該歌の名称、シンガー又は該歌に関する他のバックグラウンド情報を知りたくなる。上記歌の関連情報を得るために、ユーザは普通自分で歌詞の断片を書き留め、次にインターネットで上記歌詞の断片を検索する。このプロセスは、ユーザが歌詞を迅速に認識記憶し、且つ検索結果に対するある程度の認識能力を有することが必要であり、従って検索の操作プロセス全体は比較的に複雑で、エラーが発生しやすい。

本発明の目的は、歌詞内容に基づいて認識するマルチメディア情報検索方法及び電子機器を提供することにあり、ユーザの知りたいマルチメディア情報を自動、迅速且つ全面的にユーザに呈し、ユーザの検索効率及び検索成功率を大幅に向上させる。従来のマルチメディア検索プロセスが複雑で且つエラーが発生しやすい技術課題を解決する。

上記課題を解決するために、本発明は下記技術方案を提供し、
本発明はマルチメディア情報検索方法を提供し、当該方法は
検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するステップ、
前記検索待ちマルチメディアの音声を音声認識して認識テキストを取得するステップ、及び
前記認識テキストによってマルチメディアデータベースで検索して、前記検索待ちマルチメディアのマルチメディア情報を取得するステップを含む。

本発明は電子機器をさらに提供し、当該電子機器は、
１つ又は１つ以上のプロセッサ、
メモリ、及び
１つ又は１つ以上のプログラムを含み、前記１つ又は１つ以上のプログラムが前記メモリに記憶され、且つ前記１つ又は１つ以上のプロセッサによって実行するように配置されてマルチメディア情報検索方法を提供し、前記１つ又は１つ以上のプログラムは、機能によって分けられ、
検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するための音声抽出モジュール、
前記検索待ちマルチメディアの音声を音声認識して、認識テキストを取得するための音声認識モジュール、及び
前記認識テキストに基づいてマルチメディアデータベースで検索して前記検索待ちマルチメディアのマルチメディア情報を取得するための検索モジュールを含む。

本発明は電子機器をさらに提供し、当該電子機器は、
１つ又は１つ以上のプロセッサ、
メモリ、及び
１つ又は１つ以上のプログラムを含み、前記１つ又は１つ以上のプログラムが前記メモリに記憶され、且つ前記１つ又は１つ以上のプロセッサによって実行するように配置されてマルチメディア情報検索方法を提供し、前記１つ又は１つ以上のプログラムは機能によって分けられ、
マルチメディア情報を記憶するためのマルチメディアデータベース、
検索待ちマルチメディアのダウンロードリンクによって前記検索待ちマルチメディアをダウンロードするためのダウンロードモジュール、
検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するための音声抽出モジュール、
前記検索待ちマルチメディアの音声を音声認識して、認識テキストを取得するための音声認識モジュール、及び
前記認識テキストに基づいて前記マルチメディアデータベースで検索して、前記検索待ちマルチメディアのマルチメディア情報を取得するための検索モジュールを含む。

従来のマルチメディア情報検索方法に比べて、本発明のマルチメディア情報検索方法及び電子機器はユーザの知りたいマルチメディア情報を自動、迅速且つ全面的にユーザに呈し、ユーザの検索効率及び検索成功率を大幅に向上させる。従来のマルチメディア検索プロセスが複雑で且つエラーが発生しやすいという技術課題を解決する。

本発明の実施形態又は従来技術における技術方案をより明確に説明するために、以下、実施形態又は従来技術の説明に必要な図面を簡単に説明し、明らかに、下記説明における図面は本発明の実施形態の一部だけであり、当業者にとって、創造的な努力をしない前提で、これらの図面によって他の図面を得ることもできる。

本発明の電子機器の好ましい実施形態の構造模式図である。本発明の電子機器の好ましい実施形態の構造模式図である。本発明のマルチメディア情報検索方法の好ましい実施形態のフローチャートである。図１に示すマルチメディア情報検索方法におけるステップＳ３０３の詳細なフローチャートである。本発明のマルチメディア情報検索方法がサーバ側に使用される使用模式図である。本発明のマルチメディア情報検索方法がサーバ側に使用される使用模式図である。本発明の電子機器の動作環境の構造模式図である。

図面を参照し、同じ部品記号が同じ部品を代表し、本発明の原理については適宜な演算環境における実施を例として説明する。以下の説明は例示の本発明の具体的な実施形態に基づくものであり、ここで詳細に説明していない本発明の他の具体的な実施形態を限定するものと見なすべきではない。

以下の説明において、他に明記しない限り、本発明の具体的な実施形態については１つ又は複数のコンピュータで実行する作業のステップ及び記号を参照しながら説明する。従って、これらのステップ及び操作を理解することができ、以下の説明において、コンピュータによって実行することを数回言及し、これは構造化の形でのデータを代表する電子信号のコンピュータ処理ユニットによって操縦することを含む。該操縦は該データを転換し、又はそれを該コンピュータのメモリシステムにおける位置に維持し、これは、該コンピュータの運行を改めて配置する又は当業者の熟知する他の方式で変更する。該データの維持するデータ構造が該メモリの実体位置であり、それは該データフォーマットで定義する特定の特性を有する。しかし、本発明の原理は上記文字によって説明するが、上記内容に限定されなく、当業者は下記多種のステップ及び操作もハードウェアにおいて実施できることを理解すべきである。

本発明の原理では他の汎用性又は特定目的の演算、通信環境又はコンフィギュレーションを多く用いて作業する。公知の本発明に適用する演算システム、環境及びコンフィギュレーションの例としては携帯電話、パソコン、サーバ、マルチプロセッサシステム、マイクロコンピュータを主とするシステム、メインフレームコンピュータ、及び分散型演算環境を挙げられるが（それらに限定されない）、その中、任意の前記システム又は装置を含む。

本発明は図１に示すような電子機器を提供する。図１は本発明の電子機器の好ましい実施形態の構造模式図である。該電子機器は音声抽出モジュール１１、音声認識モジュール１２、検索モジュール１３及びマルチメディア展示モジュール１４を備える。音声抽出モジュール１１は検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出することに用いられ、音声認識モジュール１２は検索待ちマルチメディアの音声を音声認識して認識テキストを得ることに用いられ、検索モジュール１３は認識テキストに基づいてマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を得ることに用いられ、マルチメディア展示モジュール１４はマルチメディア情報をユーザに展示することに用いられる。

該検索モジュール１３は未定認識コード確定ユニット、認識コード確定ユニット及び検索ユニットを備える。未定認識コード確定ユニットは予設定のシソーラスに基づいて認識テキストに単語分割処理を行って複数の未定認識コードを得ることに用いられ、認識コード確定ユニットは未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定することに用いられ、検索ユニットは複数の認識コードを使用してマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を得ることに用いられる。

本発明の電子機器を使用する時、歌を聞くユーザは音楽プレーヤによってローカルマルチメディアを再生し、又はネットワークマルチメディアをローカルにダウンロードして再生し、ユーザが該マルチメディアのマルチメディア情報を知りたい場合、音声抽出モジュール１１は該マルチメディアから人の音声を抽出し、且つ該人の音声を音声認識モジュール１２に送信し、音声認識モジュール１２は該人の音声に音声認識を行って認識テキストを得て、且つ該認識テキストを検索モジュール１３の未定認識コード確定ユニットに送信し、検索モジュール１３の未定認識コード確定ユニットは予設定のシソーラスに基づいて該認識テキストに単語分割処理を行って複数の未定認識コードを得る。次に検索モジュール１３の認識コード確定ユニットは未定認識コード確定ユニットの確定した未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定し、且つ確定した複数の認識コードを検索モジュール１３の検索ユニットに送信し、検索モジュール１３の検索ユニットはマルチメディアデータベースに、前記複数の認識コードに基づいて検索を行うことをリクエストし、相応のマルチメディア情報を得て、最後にマルチメディア展示モジュール１４は検索ユニットの検索したマルチメディア情報をユーザに展示する（勿論、ここでは他の方式でマルチメディア情報をユーザにフィードバックすることもできる）。

本発明の電子機器の具体的な稼動原理は以下のマルチメディア情報検索方法の具体的な実施形態と同様又は類似であり、以下のマルチメディア情報検索方法の具体的な実施形態を参照できる。本発明の電子機器の各モジュールは相互に一体化にすることができ、又はあるモジュールを複数の独立機能のモジュールに分割し、各モジュールの間は直接接続してもよく、間接接続してもよい。

本発明は図２に示すような電子機器をさらに提供する。図２は本発明の電子機器の好ましい実施形態の構造模式図である。該電子機器はマルチメディアデータベース２１、ダウンロードモジュール２２、音声抽出モジュール２３、音声認識モジュール２４、検索モジュール２５、フィードバックモジュール２６及び関連付けモジュール２７を備える。マルチメディアデータベース２１はマルチメディア情報を記憶することに用いられ、ダウンロードモジュール２２は検索待ちマルチメディアのダウンロードリンクによって前記検索待ちマルチメディアをダウンロードすることに用いられ、音声抽出モジュール２３は検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出することに用いられ、音声認識モジュール２４は検索待ちマルチメディアの音声に音声認識を行って認識テキストを得ることに用いられ、検索モジュール２５は認識テキストに基づいてマルチメディアデータベース２１で検索を行って検索待ちマルチメディアのマルチメディア情報を得ることに用いられ、フィードバックモジュール２６はマルチメディア情報をユーザにフィードバックすることに用いられ、関連付けモジュール２７はダウンロードモジュール２２の取得したダウンロードリンクと相応のマルチメディア情報を関連付けることに用いられる。

該検索モジュール２５は未定認識コード確定ユニット、認識コード確定ユニット、及び検索ユニットを備える。未定認識コード確定ユニットは予設定のシソーラスに基づいて認識テキストに単語分割処理を行って複数の未定認識コードを得ることに用いられ、認識コード確定ユニットは未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定することに用いられ、検索ユニットは複数の認識コードを使用してマルチメディアデータベース２１で検索を行って検索待ちマルチメディアのマルチメディア情報を得ることに用いられる。

本発明の電子機器ではマルチメディア情報検索機器（即ち図１に示す電子機器）及びサーバ側のマルチメディアデータベース２１を一体化にすることにより、ユーザがマルチメディアのダウンロードリンクを電子機器に送信するだけで、電子機器は検索待ちマルチメディアのマルチメディア情報を、歌を聞くユーザにフィードバックでき、歌を聞くユーザの操作を大幅に簡単化した。

本発明の電子機器を使用する時、歌を聞くユーザがブラウザによって音楽ページにアクセスし、歌を聞くユーザがページ上のマルチメディアのマルチメディア情報を知りたい場合、電子機器のダウンロードモジュール２２はマルチメディアのダウンロードリンクに基づいて該マルチメディアを電子機器にダウンロードし、音声抽出モジュール２３は該マルチメディアから人の音声を抽出し、且つ該人の音声を音声認識モジュール２４に送信し、音声認識モジュール２４は該人の音声に音声認識を行って認識テキストを得て、且つ該認識テキストを検索モジュール２５の未定認識コード確定ユニットに送信し、検索モジュール２５の未定認識コード確定ユニットは予設定のシソーラスに基づいて該認識テキストに単語分割処理を行って複数の未定認識コードを得て、次に検索モジュール２５の認識コード確定ユニットは未定認識コード確定ユニットの確定した未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定し、且つ確定した複数の認識コードを検索モジュール２５の検索ユニットに送信し、検索モジュール２５の検索ユニットはマルチメディアデータベース２１に、前記複数の認識コードに基づいて検索を行うことをリクエストし、相応のマルチメディア情報を得て、最後にフィードバックモジュール２６は検索ユニットの検索したマルチメディア情報をユーザにフィードバックする。

更に、本発明の電子機器はさらに関連付けモジュール２７を備え、該関連付けモジュール２７はダウンロードモジュール２２の取得したダウンロードリンクと相応のマルチメディア情報を関連付ける。このように、歌を聞くユーザから取得するダウンロードリンクは、電子機器に記憶するダウンロードリンクと同じの場合、関連付けモジュール２７の関連付けた相応のマルチメディア情報の検索結果をユーザに直接フィードバックし、これにより、認識、検索を行う資源を大幅に節約した。

本発明は図３に示すようなマルチメディア情報検索方法をさらに提供する。図３は本発明のマルチメディア情報検索方法の好ましい実施形態のフローチャートである。該マルチメディア情報検索方法は、
検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出するステップＳ３０１と、
検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るステップＳ３０２と、
認識テキストに基づいてマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を得るステップＳ３０３と、
マルチメディア情報をユーザに展示するステップＳ３０４とを含む。
以下、図３と図４を参照しながら本発明のマルチメディア情報検索方法の各ステップの詳細フローを詳しく説明する。図４は図３に示すマルチメディア情報検索方法におけるステップ３０３の詳細なフローチャートである。

ステップＳ３０１において、検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出する。該ステップでは、主に人の歌う音声をマルチメディア音声から分離し、具体的な分離プロセスは聴覚シーン分析技術又はブラインド信号分離技術等の音声分離方法に基づくものであってもよく、このように、1チャンネルの人の歌う音声信号を出力できる。マルチメディア音声の持続時間の選択について、マルチメディア全体の長さを選択してもよく、マルチメディアの一部のみを選択してもよい。一般的には選択したマルチメディア音声の時間が長ければ長いほど消耗する演算資源が多くなるが、後続ステップに提供する情報も多くなり、これにより後続ステップで正確な検索を行うことに便利である。

ステップＳ３０２において、検索待ちマルチメディアの音声に音声認識を行って認識テキストを得る。該ステップでは、主に人の歌う音声信号を認識テキストに変換し、即ち人間の音声中の語彙のコンテンツをコンピュータ読み取り可能な入力、例えばプッシュボタン、２進化コード又は文字列等に変換する。該認識テキストは複数の認識コードを備え、認識コードは中国語文字、中国語の語彙、ピンイン、英語文字及び／又は英語の語彙等を備えるが、それに限定されない。現在、具体的な音声認識プロセスは統計的パターン認識技術等の音声認識方法を使用できる。音声認識自体に不確定なエラー率の存在が可能であるため、マルチメディア音声を抽出する時間を増加することで、音声認識エラーによる後続のマルチメディア検索エラーの確率を減少させることができる。

図４に示すように、ステップＳ３０３は具体的に下記ステップＳ３０３１〜ステップＳ３０３３を含む。
ステップＳ３０３１において、予設定のシソーラスに基づいて認識テキストに単語分割処理を行って複数の未定認識コードを得る。

音声認識がある程度のエラー率を有するため、認識された認識テキストに対して直接に検索を行うと、小さな認識エラーで最終の検索失敗をもたらす可能性がある。従って、ここで予設定のシソーラスによって認識テキストに単語分割処理を行い、認識テキストの中の複数の小さいユニットを得る。即ち未定認識コードである。

該未定認識コードは中国語文字、中国語の語彙、ピンイン、英語文字及び／又は英語の語彙等を含むが、それに限定されるだけでなく、具体的には予設定のシソーラスの類型に基づいて区分する。予設定のシソーラスが中国語文字と語彙だけに対応する場合、認識テキストを複数の中国語文字又は中国語語彙類型の未定認識コードのみに区分し、予設定のシソーラスが中国語とピンインに対応し、同時にマルチメディアデータベースもピンイン検索に対応する場合、一部の認識できない中国語文字をピンインの形で検索することができる。このように検索の品質をさらに保証でき、検索エラーを避けられ、予設定のシソーラスが中国語と英語に同時対応できる場合、英語を有するマルチメディア又は英語マルチメディアを直接検索できる。

ステップＳ３０３２において、未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定する。

シソーラスから選出された各未定認識コードはいずれもシソーラスにおいて単語頻度の属性を一つ有し、未定認識コードの単語頻度の大きさは該未定認識コードが日常生活で使用される頻繁度（シソーラスは人々のネットワークでよく使用する語彙をまとめて得られるものである）を示し、該未定認識コードは日常生活で使用される頻繁度が大きければ大きいほど、該未定認識コードの単語頻度が大きくなり、さもないと該未定認識コードの単語頻度が小さくなる。

検索で消耗する資源を減少させるために、未定認識コードのシソーラスにおける単語頻度に基づいて未定認識コードを若干選出して最後にマルチメディア検索に用いられる認識コードとする。具体のプロセスは以下の通りである。
未定認識コードを未定認識コードのシソーラスにおける単語頻度に基づいて昇順で配列し、次に単語頻度が最も低いｎ個の未定認識コードを選出し、また、ｍ個の未定認識コードをランダムに選出し、こうしてｎ個の未定認識コードと前記ｍ個の未定認識コードが重複でなく、最後にｎ個の未定認識コードと前記ｍ個の未定認識コードを認識コードに設定し、ここでｎが１以上であり、ｍが０以上である。ここでｎ個の未定認識コードは単語頻度が低いため、ある程度で検索結果の正確性を保証でき、ｍ個の未定認識コードは低単語頻度の未定認識コードのもたらし可能な検索失敗（ここで検索はファジー検索であり、ある程度の検索条件を満たした場合、検索ユーザにフィードバックする）をある程度で回避できる。ここのｎ値とｍ値はユーザの要求によって柔軟に設定できる。

ステップＳ３０３３において、以上で確定した複数の認識コードを使用してマルチメディアデータベースで検索を行って検索待ちマルチメディアのマルチメディア情報を得る。

ここで検索プロセスは検索結果に基づいて調整でき、検索フィードバック結果が多すぎる場合、相応的に未定認識コードに新しい認識コードを増加し、或いは検索条件を精細化させ、精度の高い検索条件を満たす検索結果をユーザにフィードバックする。検索フィードバックが失敗する場合、相応的に認識コードの数量を減少させて再び検索を行い、これにより、音声認識エラーで生成する認識コードによる検索失敗を避ける。ここで、具体的な検索プロセスは実際状況に基づいて設定でき、検索の具体的なプロセスの異なりが本発明の保護範囲を影響しない。マルチメディアデータベースはローカルコンピュータにあるローカルマルチメディアデータベースであってもよく、ネットワークに位置する、サーバのネットワークマルチメディアデータベースであってもよい。

ステップＳ３０４において、検索したマルチメディアのマルチメディア情報をユーザに展示する。ここでのマルチメディア情報はユーザの知りたい検索マルチメディアに関する各種の関連情報であってよく、該マルチメディアの歌の名称、シンガー、歌詞、アルバム、バックグラウンド情報、楽譜及びマルチメディアダウンロードリンク等を含むが、それに限定されず、一部のユーザに対して、該マルチメディアのダウンロードリンク、例えばネットワークオンラインマルチメディアのフリーダウンロードリンク、及びユーザローカルマルチメディアと相応のフリー正規版リンク等を展示してもよい。

前記ステップＳ３０１〜ステップＳ３０４によって検索待ちマルチメディアに対する自動検索を完成し、且つ検索結果を迅速に歌を聞くユーザにフィードバックする。

本発明のマルチメディア情報検索方法をユーザ側に用いれる場合、図５に示すように、図５は本発明のマルチメディア情報検索方法をユーザ側に使用する使用模式図である。こうして音声抽出、音声認識、結果展示はいずれもユーザ側で発生し、検索に用いられるマルチメディアデータベースは検索サーバ側に設置され、検索サーバは検索作用のみを担当する。

本発明のマルチメディア情報検索方法をサーバ側に用いれる場合、図６に示すように、図６は本発明のマルチメディア情報検索方法がサーバ側に使用される使用模式図である。こうしてユーザはネットワークブラウザによって検索待ちマルチメディアのダウンロードリンクを検索サーバに送信し、検索サーバは検索結果をユーザにフィードバックする。ここで検索サーバはマルチメディアの検索を行うだけでなく、マルチメディアのダウンロード、音声抽出、音声認識、結果フィードバック等の操作も行い、こうしてユーザの操作をさらに便利にする。

当業者は、前記実施形態の方法における全部又は一部のフローの実現は、コンピュータプログラムによって関連ハードウェアに指令を出して達成でき、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶でき、該プログラムが実行する時、上記各方法の実施形態におけるフローを含むことができることを理解できる。前記記憶媒体は磁気ディスク、光ディスク、リードオンリーメモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）又はランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）等でよい。

本発明のマルチメディア情報検索方法、電子機器、記憶媒体はユーザの知りたいマルチメディア情報を自動、迅速且つ全面的にユーザに呈し、ユーザの、歌を聞く興味・体験を大幅に増加する。従来のマルチメディア検索プロセスが複雑で且つエラーが発生しやすい技術課題を解決する。同時に本発明の電子機器ではユーザが自分のコンピュータでマルチメディアの検索を行うことを便利にし、電子機器はユーザのリクエストに応じてサーバでマルチメディアの検索を行うことができ、検索結果のみをユーザにフィードバックし、ユーザの操作をさらに便利にする。

本出願において使用する「コンポーネント」、「モジュール」、「システム」、「インターフェース」等の用語は一般的にハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア又は実行中のソフトウェアというコンピュータの関連実体を指すものである。例えば、コンポーネントはプロセッサ上で運行するプロセス、プロセッサ、オブジェクト、実行可能なアプリケーション、実行のスレッド、プログラム及び／又はコンピュータであってもよいが、これらに限定されない。図示により、コントローラ上で運行するアプリケーションと該コントローラは両方ともコンポーネントであってもよい。１つの又は複数のコンポーネントは実行のプロセス及び／又はスレッドの中に存在してよく、且つコンポーネントは１つのコンピュータに位置してよく、及び／又は２つ以上のコンピュータ同士の間で分散されてもよい。

且つ、保護請求の主題は、標準的なプログラミング及び／又はエンジニアリング技術を用いてソフトウェア、ファームウェア、ハードウェア、又はこれらの任意の組み合わせを生成することで、コンピュータを制御して開示される主題の方法、装置又は製造品を実現するように達成される。本願で使用する「製造品」という用語は、コンピュータ読み取り可能な機器、キャリヤ、又は媒体のいずれからアクセスできるコンピュータプログラムを含むものである。もちろん、当業者は保護請求の主題の範囲又は精神を逸脱せずに、該配置に対し、多くの変更がなされ得ることを知るべきである。

図７及びこれからの検討は本発明に記載の電子機器を実現する動作環境に対する簡潔で、概括的な説明を提供する。図７の動作環境は適宜な動作環境の１つの実例だけであり、且つ動作環境の用途又は機能の範囲に関する限定ではない。実例の電子機器７１２はパソコン、サーバコンピュータ、ハンドヘルド又はラップトップ機器、携帯機器（例えば携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、メディアプレーヤ等）、マルチプロセッサシステム、消費型電子機器、小型コンピュータ、大型コンピュータ、前記任意のシステム又は機器を備える分散型演算環境、等を含むが、それらに限定されない。

特に要求されていないが、「コンピュータ読み取り可能な指令」が１つ又は複数の電子機器によって実行される汎用背景で実施形態を説明する。コンピュータ読み取り可能な指令はコンピュータ読み取り可能な媒体によって分散できる（以下、検討する）。コンピュータ読み取り可能な指令はプログラムモジュールとして実現でき、例えば特定タスクを実行し又は特定抽象データ類型を実現する機能、オブジェクト、アプリケーションプログラミングインターフェース（ＡＰＩ）、データ構造等である。典型的に、該コンピュータ読み取り可能な指令の機能は各種の環境で任意に組み合わせ又は分散できる。

図７は本発明のマルチメディア情報検索方法の１つ又は複数の実施形態を含む電子機器７１２の実例を示す。１種の配置において、電子機器７１２は少なくとも１つの処理ユニット７１６とメモリ７１８を備える。電子機器の確実な配置と類型によって、メモリ７１８は揮発性メモリ（例えばＲＡＭ）、非揮発性メモリ（例えばＲＯＭ、フラッシュメモリ等）、又は両方の組み合わせであってもよい。該配置は図７において破線７１４によって示される。

他の実施形態において、電子機器７１２は付加要件及び／又は機能を含んでもいい。例えば、機器７１２はさらに付加記憶装置（例えば取り外し可能な記憶装置及び／又は取り外し不可能な記憶装置）を含んでもよく、前記記憶装置は磁気記憶装置、光記憶装置等でよいが、それらに限定されない。このような付加記憶装置は図７において記憶装置７２０によって示される。１つの実施形態では、本願の提供する１つの又は複数の実施形態を実現するコンピュータ読み取り可能な指令は記憶装置７２０にあってもよい。記憶装置７２０はさらに操作システム、アプリケーションプログラム等を実現するための他のコンピュータ読み取り可能な指令を記憶してもいい。コンピュータ読み取り可能な指令はメモリ７１８にロードされて例えば処理ユニット７１６によって実行されてもよい。

本願で使用する「コンピュータ読み取り可能な媒体」という用語はコンピュータ記憶媒体を含む。コンピュータ記憶媒体はコンピュータ読み取り可能な指令又は他のデータなどの情報を記憶するためのいずれかの方法又は技術で実現する揮発性と非揮発性、取り外し可能と取り外し不可能な媒体を含む。メモリ７１８と記憶装置７２０はコンピュータ記憶媒体の実例である。コンピュータ記憶媒体はＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ又は他のメモリ技術、ＣＤ−ＲＯＭ、デジタル汎用ディスク（ＤＶＤ）又は他の光記憶装置、カセットテープ、テープ、磁気ディスク記憶装置又は他の磁気記憶装置、又は希望情報を記憶し且つ電子機器７１２がアクセスできる任意の他の媒体を含むが、それらに限定されない。任意のこのようなコンピュータ記憶媒体は電子機器７１２の一部であってもよい。

電子機器７１２は電子機器７１２と他の機器との通信を許可する通信接続７２６をさらに含んでもいい。通信接続７２６はモデム、ネットワークインターフェースカード（ＮＩＣ）、集積ネットワークインターフェース、無線周波送信機／受信機、赤外線ポート、ＵＳＢ接続又は電子機器７１２を他の電子機器に接続する他のインターフェースを含むことができるが、それらに限定されない。通信接続７２６は有線接続であってもよく、無線接続であってもいい。通信接続７２６は通信媒体を送信・受信できる。

「コンピュータ読み取り可能な媒体」という用語は通信媒体を含んでもよい。通信媒体は典型的に、コンピュータ読み取り可能な指令又は、搬送波又は他の伝送機構のような「変調したデータ信号」の中の他のデータを含み、且ついずれかの情報伝送媒体を含む。「変調したデータ信号」という用語は、信号特性中の１つ又は複数が情報を信号にコーディングする方式で設置又は変更される信号を含んでもよい。

電子機器７１２は、例えばキーボード、マウス、ペン、音声入力機器、タッチ入力機器、赤外線カメラ、ビデオ入力機器及び／又は任意の他の入力機器のような入力機器７２４を含んでもいい。機器７１２は、例えば１つ又は複数のディスプレイ、スピーカー、プリンター及び／又は任意の他の出力機器のような出力機器７２２を含んでもいい。入力機器７２４と出力機器７２２は有線接続、無線接続又はその任意の組み合わせによって電子機器７１２に接続される。１つの実施形態において、他の電子機器からの入力機器又は出力機器は電子機器７１２の入力機器７２４又は出力機器７２２として用いることができる。

電子機器７１２のコンポーネントは各種の相互接続（例えば、バス）によって接続される。このような相互接続は周辺コンポーネント相互接続（ＰＣＩ）（例えば、迅速ＰＣＩ）、ユニバーサルシリアルバス（ＵＳＢ）、ファイアワイア（ＩＥＥＥ１３９４）、光学バス構造等を含んでもよい。他の実施形態では、電子機器７１２のコンポーネントはネットワークによって相互接続されてもよい。例えば、メモリ７１８は異なる物理位置に位置する、ネットワークによって相互接続される複数の物理メモリユニットで構成されてもよい。

コンピュータ読み取り可能な指令を記憶するための記憶機器がネットワークを経て分散できることは、当業者にとって明らかである。例えば、ネットワーク７２８を経てアクセスできる電子機器７３０は本発明の提供する１つ又は複数の実施形態を実現するためのコンピュータ読み取り可能な指令を記憶できる。電子機器７１２は電子機器７３０にアクセスでき且つコンピュータ読み取り可能な指令の一部又は全体をダウンロードして実行させる。代わりに、電子機器７１２は需要に応じて、複数のコンピュータ読み取り可能な指令をダウンロードし、又はいくつかの指令は電子機器７１２で実行され、且ついくつかの指令は電子機器７３０で実行されることができる。

本願が実施形態の各種の操作を提供した。１つの実施形態では、前記１つ又は複数の操作は１つ又は複数のコンピュータ読み取り可能な媒体で記憶されるコンピュータ読み取り可能な指令を構成でき、それが電子機器によって実行される時、演算機器に前記操作を実行させる。一部又はすべての操作を説明する順序はこれら操作が必ずこんな順序で関連しなければならないことを暗示するように解釈すべきではない。当業者は、本明細書のメリットを有する他の取替えできる順序付けを理解し、且つ、すべての操作が本願の提供する各実施形態に存在しなければならないものではないことも理解できる。

また、本願が使用する「好ましい」という表現は実例、例示又は例証として用いることを意味する。「好ましい」と説明される任意の方面又は設計は必ずしも他の方面又は設計よりも有利だと解釈すべきではない。一方、「好ましい」の使用は具体的な方式で概念を提出することが意図される。本出願が使用する「又は」という用語は、排他的な「又は」ではなく包括的な「又は」を意味することが意図される。すなわち、その他の指定があるまたはコンテキストから明らかである以外の場合、「Ｘは、ＡまたはＢを用いる」というのは、当然の包括的な置換のうちのいずれかを意味することが意図される。すなわち、「Ｘは、ＡまたはＢを用いる」は、以下の任意の場合によって満たされる。すなわち、ＸはＡを用いること、ＸはＢを用いること、またはＸはＡおよびＢの両方を用いること、である。

また、１つ又は複数の実現方式に対して本開示を示し且つ説明したが、当業者は本明細書と図面の閲読及び理解に基づいて等価変更と修正を考え付いた。本開示はすべての上記修正と変更を含み、かつ添付の請求の範囲のみによって限定される。特に、前記コンポーネント（例えば、素子、資源等）によって実行する各種の機能について、このようなコンポーネントを説明する用語は前記コンポーネントの指定機能（例えば、機能的等価である）を実行する任意のコンポーネント（他に指示がない限り）に対応することが意図され、たとえ構造上で本願の開示する本開示の例示的な実現方式中の機能の開示構造と異なってもいい。なお、本開示の特定特徴は若干の実現方式中のただ１つに対し、開示されたが、このような特徴は所定又は特定アプリケーションにとっては希望又は有利の他の実現方式の１つ又は複数の他の特徴と組み合わせてもよい。且つ、「含む」、「有する」、「含有」という用語又はその変体が具体的な実施形態又は請求の範囲に用いられることにとって、このような用語は用語「含む」と類似する方式で包括的であることが意図される。

以上のことにより、本発明では好ましい実施形態を前述の通り開示したが、これは本発明を限定するものではなく、当業者が、本発明の精神と範囲を離脱しない限り、各種の変更と修飾をすることができるため、本発明の保護範囲は請求の範囲で定められるものに準ずる。

本発明の電子機器の好ましい実施形態の構造模式図である。本発明の電子機器の好ましい実施形態の構造模式図である。本発明のマルチメディア情報検索方法の好ましい実施形態のフローチャートである。図１に示すマルチメディア情報検索方法におけるステップＳ３０３の詳細なフローチャートである。本発明のマルチメディア情報検索方法がユーザ側に使用される使用模式図である。本発明のマルチメディア情報検索方法がサーバ側に使用される使用模式図である。本発明の電子機器の動作環境の構造模式図である。

本発明は図３に示すようなマルチメディア情報検索方法をさらに提供する。図３は本発明のマルチメディア情報検索方法の好ましい実施例のフローチャートである。該マルチメディア情報検索方法は、
検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出するステップＳ３０１と、
検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るステップＳ３０２と、
認識テキストに基づいてマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を得るステップＳ３０３と、
マルチメディア情報をユーザに展示するステップＳ３０４とを含む。
以下、図３と図４を参照しながら本発明のマルチメディア情報検索方法の各ステップの詳細フローを詳しく説明する。図４は図３に示すマルチメディア情報検索方法におけるステップＳ３０３の詳細なフローチャートである。

また、１つ又は複数の実現方式に対して本開示を示し且つ説明したが、当業者は本明細書と図面の閲読及び理解に基づいて等価変更と修正を考え付いた。本開示はすべての上記修正と変更を含み、かつ添付の請求の範囲のみによって限定される。なお、本開示の特定特徴は若干の実現方式中のただ１つに対し、開示されたが、このような特徴は所定又は特定アプリケーションにとっては希望又は有利の他の実現方式の１つ又は複数の他の特徴と組み合わせてもよい。且つ、「含む」、「有する」、「含有」という用語又はその変体が具体的な実施形態又は請求の範囲に用いられることにとって、このような用語は用語「含む」と類似する方式で包括的であることが意図される。

Claims

マルチメディア情報検索方法であって、
検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するステップ、
前記検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るステップ、及び
前記認識テキストに基づいてマルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るステップ、を含むマルチメディア情報検索方法。
前記認識テキストに基づいてマルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得る前記ステップは、
予設定のシソーラスに基づいて前記認識テキストに単語分割処理を行って複数の未定認識コードを得るステップ、
前記未定認識コードの前記シソーラスにおける単語頻度に基づいて、複数の認識コードを確定するステップ、及び
前記複数の認識コードを使用して前記マルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るステップ、を含む請求項１に記載のマルチメディア情報検索方法。
前記未定認識コードが文字、ピンイン及び英語のうちの少なくとも１種である請求項２に記載のマルチメディア情報検索方法。
前記未定認識コードの前記シソーラスにおける単語頻度に基づいて、複数の認識コードを確定する前記ステップは、具体的に、
すべての未定認識コードのうちから、前記シソーラスにおける単語頻度が最も低いｎ個の未定認識コードを選択し、その後、ランダムにｍ個の未定認識コードを選択し、前記ｎ個の未定認識コードと前記ｍ個の未定認識コードが重複でなく、前記ｎ個の未定認識コード及び前記ｍ個の未定認識コードを認識コードに設定し、ｎが１以上であり、ｍが０以上であることを含む請求項２に記載のマルチメディア情報検索方法。
前記マルチメディア情報検索方法は、前記マルチメディア情報をユーザに展示するステップをさらに含み、前記マルチメディア情報は歌の名称、シンガー、歌詞、アルバム、バックグラウンド情報、楽譜及びマルチメディアダウンロードリンクのうちの少なくとも１つを含む請求項１に記載のマルチメディア情報検索方法。
電子機器であって、
１つ又は１つ以上のプロセッサ、
メモリ、及び
１つ又は１つ以上のプログラムを含み、前記１つ又は１つ以上のプログラムが前記メモリに記憶され、且つ前記１つ又は１つ以上のプロセッサによって実行するように配置されてマルチメディア情報検索方法を提供し、
前記１つ又は１つ以上のプログラムは、機能によって分けられ、
検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するための音声抽出モジュール、
前記検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るための音声認識モジュール、及び
前記認識テキストに基づいてマルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るための検索モジュール、を含む電子機器。
前記検索モジュールは、
予設定のシソーラスに基づいて前記認識テキストに単語分割処理を行って複数の未定認識コードを得るための未定認識コード確定ユニット、
前記未定認識コードの前記シソーラスにおける単語頻度に基づいて、複数の認識コードを確定するための認識コード確定ユニット、及び
前記複数の認識コードを使用して前記マルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るための検索ユニットを含む請求項６に記載の電子機器。
前記未定認識コードが文字、ピンイン及び英語のうちの少なくとも1種である請求項７に記載の電子機器。
前記認識コード確定ユニットは具体的に、すべての未定認識コードのうちから前記シソーラスにおける単語頻度が最も低いｎ個の未定認識コードを選択し、その後、ランダムにｍ個の未定認識コードを選択し、前記ｎ個の未定認識コードと前記ｍ個の未定認識コードが重複でなく、前記ｎ個の未定認識コード及び前記ｍ個の未定認識コードを認識コードに設定することに用いられ、ｎが１以上であり、ｍが０以上である請求項７に記載の電子機器。
前記電子機器は、前記マルチメディア情報をユーザに展示するためのマルチメディア展示モジュールをさらに含み、前記マルチメディア情報は歌の名称、シンガー、歌詞、アルバム、バックグラウンド情報、楽譜及びマルチメディアダウンロードリンクのうちの少なくとも１つを含む請求項６に記載の電子機器。
電子機器であって、
１つ又は１つ以上のプロセッサ、
メモリ、及び
１つ又は１つ以上のプログラムを含み、前記１つ又は１つ以上のプログラムは前記メモリに記憶され、且つ前記１つ又は１つ以上のプロセッサによって実行するように配置されてマルチメディア情報検索方法を提供し、
前記１つ又は１つ以上のプログラムは、機能によって分けられ、
マルチメディア情報を記憶するためのマルチメディアデータベース、
検索待ちマルチメディアのダウンロードリンクによって前記検索待ちマルチメディアをダウンロードするためのダウンロードモジュール、
検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するための音声抽出モジュール、
前記検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るための音声認識モジュール、及び
前記認識テキストに基づいてマルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るための検索モジュール、を含む電子機器。
前記検索モジュールは、
予設定のシソーラスに基づいて前記認識テキストに単語分割処理を行って複数の未定認識コードを得るための未定認識コード確定ユニット、
前記未定認識コードの前記シソーラスにおける単語頻度に基づいて、複数の認識コードを確定するための認識コード確定ユニット、及び
前記複数の認識コードを使用して前記マルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るための検索ユニットを含む請求項１１に記載の電子機器。
前記未定認識コードが文字、ピンイン及び英語のうちの少なくとも１種である請求項１２に記載の電子機器。
前記認識コード確定ユニットは具体的に、すべての未定認識コードのうちから前記シソーラスにおける単語頻度が最も低いｎ個の未定認識コードを選択し、その後、ランダムにｍ個の未定認識コードを選択し、前記ｎ個の未定認識コードと前記ｍ個の未定認識コードが重複でなく、前記ｎ個の未定認識コード及び前記ｍ個の未定認識コードを認識コードに設定することに用いられ、ｎが１以上であり、ｍが０以上である請求項１２に記載の電子機器。
前記電子機器は、
前記マルチメディア情報をユーザにフィードバックするためのフィードバックモジュールをさらに含み、前記マルチメディア情報は歌の名称、シンガー、歌詞、アルバム、バックグラウンド情報、楽譜及びマルチメディアダウンロードリンクのうちの少なくとも１つを含む請求項１１に記載の電子機器。
前記電子機器は、前記ダウンロードモジュールの取得したダウンロードリンクと相応のマルチメディア情報を関連付けるための関連付けモジュールをさらに含む請求項１１に記載の電子機器。