JP2015522892A - マルチメディア情報検索方法及び電子機器 - Google Patents

マルチメディア情報検索方法及び電子機器 Download PDF

Info

Publication number
JP2015522892A
JP2015522892A JP2015523408A JP2015523408A JP2015522892A JP 2015522892 A JP2015522892 A JP 2015522892A JP 2015523408 A JP2015523408 A JP 2015523408A JP 2015523408 A JP2015523408 A JP 2015523408A JP 2015522892 A JP2015522892 A JP 2015522892A
Authority
JP
Japan
Prior art keywords
multimedia
search
recognition
undetermined
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015523408A
Other languages
English (en)
Other versions
JP2015522892A5 (ja
JP5948671B2 (ja
Inventor
鵬 胡
鵬 胡
騰 張
騰 張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2015522892A publication Critical patent/JP2015522892A/ja
Publication of JP2015522892A5 publication Critical patent/JP2015522892A5/ja
Application granted granted Critical
Publication of JP5948671B2 publication Critical patent/JP5948671B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明はマルチメディア情報検索方法及び電子機器に関し、該マルチメディア情報検索方法は、検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するステップと、検索待ちマルチメディアの音声を音声認識して認識テキストを取得するステップと、認識テキストによってマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を取得するステップと、を含む。本発明はさらに電子機器に関する。本発明のマルチメディア情報検索方法及び電子機器はユーザの知りたいマルチメディア情報を自動、迅速且つ全面的にユーザに呈し、ユーザの検索効率及び検索成功率を大幅に向上させる。【選択図】図1

Description

本発明は情報検索分野に関し、特にマルチメディア情報検索方法及び電子機器に関する。
ユーザは歌を聞く時、該歌の情報をさらに知りたい希望が生じることもある。例えば、ユーザはコンピュータで比較的に好きな歌を聞いたら、更に該歌の名称、シンガー又は該歌に関する他のバックグラウンド情報を知りたくなる。上記歌の関連情報を得るために、ユーザは普通自分で歌詞の断片を書き留め、次にインターネットで上記歌詞の断片を検索する。このプロセスは、ユーザが歌詞を迅速に認識記憶し、且つ検索結果に対するある程度の認識能力を有することが必要であり、従って検索の操作プロセス全体は比較的に複雑で、エラーが発生しやすい。
本発明の目的は、歌詞内容に基づいて認識するマルチメディア情報検索方法及び電子機器を提供することにあり、ユーザの知りたいマルチメディア情報を自動、迅速且つ全面的にユーザに呈し、ユーザの検索効率及び検索成功率を大幅に向上させる。従来のマルチメディア検索プロセスが複雑で且つエラーが発生しやすい技術課題を解決する。
上記課題を解決するために、本発明は下記技術方案を提供し、
本発明はマルチメディア情報検索方法を提供し、当該方法は
検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するステップ、
前記検索待ちマルチメディアの音声を音声認識して認識テキストを取得するステップ、及び
前記認識テキストによってマルチメディアデータベースで検索して、前記検索待ちマルチメディアのマルチメディア情報を取得するステップを含む。
本発明は電子機器をさらに提供し、当該電子機器は、
1つ又は1つ以上のプロセッサ、
メモリ、及び
1つ又は1つ以上のプログラムを含み、前記1つ又は1つ以上のプログラムが前記メモリに記憶され、且つ前記1つ又は1つ以上のプロセッサによって実行するように配置されてマルチメディア情報検索方法を提供し、前記1つ又は1つ以上のプログラムは、機能によって分けられ、
検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するための音声抽出モジュール、
前記検索待ちマルチメディアの音声を音声認識して、認識テキストを取得するための音声認識モジュール、及び
前記認識テキストに基づいてマルチメディアデータベースで検索して前記検索待ちマルチメディアのマルチメディア情報を取得するための検索モジュールを含む。
本発明は電子機器をさらに提供し、当該電子機器は、
1つ又は1つ以上のプロセッサ、
メモリ、及び
1つ又は1つ以上のプログラムを含み、前記1つ又は1つ以上のプログラムが前記メモリに記憶され、且つ前記1つ又は1つ以上のプロセッサによって実行するように配置されてマルチメディア情報検索方法を提供し、前記1つ又は1つ以上のプログラムは機能によって分けられ、
マルチメディア情報を記憶するためのマルチメディアデータベース、
検索待ちマルチメディアのダウンロードリンクによって前記検索待ちマルチメディアをダウンロードするためのダウンロードモジュール、
検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するための音声抽出モジュール、
前記検索待ちマルチメディアの音声を音声認識して、認識テキストを取得するための音声認識モジュール、及び
前記認識テキストに基づいて前記マルチメディアデータベースで検索して、前記検索待ちマルチメディアのマルチメディア情報を取得するための検索モジュールを含む。
従来のマルチメディア情報検索方法に比べて、本発明のマルチメディア情報検索方法及び電子機器はユーザの知りたいマルチメディア情報を自動、迅速且つ全面的にユーザに呈し、ユーザの検索効率及び検索成功率を大幅に向上させる。従来のマルチメディア検索プロセスが複雑で且つエラーが発生しやすいという技術課題を解決する。
本発明の実施形態又は従来技術における技術方案をより明確に説明するために、以下、実施形態又は従来技術の説明に必要な図面を簡単に説明し、明らかに、下記説明における図面は本発明の実施形態の一部だけであり、当業者にとって、創造的な努力をしない前提で、これらの図面によって他の図面を得ることもできる。
本発明の電子機器の好ましい実施形態の構造模式図である。 本発明の電子機器の好ましい実施形態の構造模式図である。 本発明のマルチメディア情報検索方法の好ましい実施形態のフローチャートである。 図1に示すマルチメディア情報検索方法におけるステップS303の詳細なフローチャートである。 本発明のマルチメディア情報検索方法がサーバ側に使用される使用模式図である。 本発明のマルチメディア情報検索方法がサーバ側に使用される使用模式図である。 本発明の電子機器の動作環境の構造模式図である。
図面を参照し、同じ部品記号が同じ部品を代表し、本発明の原理については適宜な演算環境における実施を例として説明する。以下の説明は例示の本発明の具体的な実施形態に基づくものであり、ここで詳細に説明していない本発明の他の具体的な実施形態を限定するものと見なすべきではない。
以下の説明において、他に明記しない限り、本発明の具体的な実施形態については1つ又は複数のコンピュータで実行する作業のステップ及び記号を参照しながら説明する。従って、これらのステップ及び操作を理解することができ、以下の説明において、コンピュータによって実行することを数回言及し、これは構造化の形でのデータを代表する電子信号のコンピュータ処理ユニットによって 操縦することを含む。該操縦は該データを転換し、又はそれを該コンピュータのメモリシステムにおける位置に維持し、これは、該コンピュータの運行を改めて配置する又は当業者の熟知する他の方式で変更する。該データの維持するデータ構造が該メモリの実体位置であり、それは該データフォーマットで定義する特定の特性を有する。しかし、本発明の原理は上記文字によって説明するが、上記内容に限定されなく、当業者は下記多種のステップ及び操作もハードウェアにおいて実施できることを理解すべきである。
本発明の原理では他の汎用性又は特定目的の演算、通信環境又はコンフィギュレーションを多く用いて作業する。公知の本発明に適用する演算システム、環境及びコンフィギュレーションの例としては携帯電話、パソコン、サーバ、マルチプロセッサシステム、マイクロコンピュータを主とするシステム、メインフレームコンピュータ、及び分散型演算環境を挙げられるが(それらに限定されない)、その中、任意の前記システム又は装置を含む。
本発明は図1に示すような電子機器を提供する。図1は本発明の電子機器の好ましい実施形態の構造模式図である。該電子機器は音声抽出モジュール11、音声認識モジュール12、検索モジュール13及びマルチメディア展示モジュール14を備える。音声抽出モジュール11は検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出することに用いられ、音声認識モジュール12は検索待ちマルチメディアの音声を音声認識して認識テキストを得ることに用いられ、検索モジュール13は認識テキストに基づいてマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を得ることに用いられ、マルチメディア展示モジュール14はマルチメディア情報をユーザに展示することに用いられる。
該検索モジュール13は未定認識コード確定ユニット、認識コード確定ユニット及び検索ユニットを備える。未定認識コード確定ユニットは予設定のシソーラスに基づいて認識テキストに単語分割処理を行って複数の未定認識コードを得ることに用いられ、認識コード確定ユニットは未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定することに用いられ、検索ユニットは複数の認識コードを使用してマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を得ることに用いられる。
本発明の電子機器を使用する時、歌を聞くユーザは音楽プレーヤによってローカルマルチメディアを再生し、又はネットワークマルチメディアをローカルにダウンロードして再生し、ユーザが該マルチメディアのマルチメディア情報を知りたい場合、音声抽出モジュール11は該マルチメディアから人の音声を抽出し、且つ該人の音声を音声認識モジュール12に送信し、音声認識モジュール12は該人の音声に音声認識を行って認識テキストを得て、且つ該認識テキストを検索モジュール13の未定認識コード確定ユニットに送信し、検索モジュール13の未定認識コード確定ユニットは予設定のシソーラスに基づいて該認識テキストに単語分割処理を行って複数の未定認識コードを得る。次に検索モジュール13の認識コード確定ユニットは未定認識コード確定ユニットの確定した未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定し、且つ確定した複数の認識コードを検索モジュール13の検索ユニットに送信し、検索モジュール13の検索ユニットはマルチメディアデータベースに、前記複数の認識コードに基づいて検索を行うことをリクエストし、相応のマルチメディア情報を得て、最後にマルチメディア展示モジュール14は検索ユニットの検索したマルチメディア情報をユーザに展示する(勿論、ここでは他の方式でマルチメディア情報をユーザにフィードバックすることもできる)。
本発明の電子機器の具体的な稼動原理は以下のマルチメディア情報検索方法の具体的な実施形態と同様又は類似であり、以下のマルチメディア情報検索方法の具体的な実施形態を参照できる。本発明の電子機器の各モジュールは相互に一体化にすることができ、又はあるモジュールを複数の独立機能のモジュールに分割し、各モジュールの間は直接接続してもよく、間接接続してもよい。
本発明は図2に示すような電子機器をさらに提供する。図2は本発明の電子機器の好ましい実施形態の構造模式図である。該電子機器はマルチメディアデータベース21、ダウンロードモジュール22、音声抽出モジュール23、音声認識モジュール24、検索モジュール25、フィードバックモジュール26及び関連付けモジュール27を備える。マルチメディアデータベース21はマルチメディア情報を記憶することに用いられ、ダウンロードモジュール22は検索待ちマルチメディアのダウンロードリンクによって前記検索待ちマルチメディアをダウンロードすることに用いられ、音声抽出モジュール23は検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出することに用いられ、音声認識モジュール24は検索待ちマルチメディアの音声に音声認識を行って認識テキストを得ることに用いられ、検索モジュール25は認識テキストに基づいてマルチメディアデータベース21で検索を行って検索待ちマルチメディアのマルチメディア情報を得ることに用いられ、フィードバックモジュール26はマルチメディア情報をユーザにフィードバックすることに用いられ、関連付けモジュール27はダウンロードモジュール22の取得したダウンロードリンクと相応のマルチメディア情報を関連付けることに用いられる。
該検索モジュール25は未定認識コード確定ユニット、認識コード確定ユニット、及び検索ユニットを備える。未定認識コード確定ユニットは予設定のシソーラスに基づいて認識テキストに単語分割処理を行って複数の未定認識コードを得ることに用いられ、認識コード確定ユニットは未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定することに用いられ、検索ユニットは複数の認識コードを使用してマルチメディアデータベース21で検索を行って検索待ちマルチメディアのマルチメディア情報を得ることに用いられる。
本発明の電子機器ではマルチメディア情報検索機器(即ち図1に示す電子機器)及びサーバ側のマルチメディアデータベース21を一体化にすることにより、ユーザがマルチメディアのダウンロードリンクを電子機器に送信するだけで、電子機器は検索待ちマルチメディアのマルチメディア情報を、歌を聞くユーザにフィードバックでき、歌を聞くユーザの操作を大幅に簡単化した。
本発明の電子機器を使用する時、歌を聞くユーザがブラウザによって音楽ページにアクセスし、歌を聞くユーザがページ上のマルチメディアのマルチメディア情報を知りたい場合、電子機器のダウンロードモジュール22はマルチメディアのダウンロードリンクに基づいて該マルチメディアを電子機器にダウンロードし、音声抽出モジュール23は該マルチメディアから人の音声を抽出し、且つ該人の音声を音声認識モジュール24に送信し、音声認識モジュール24は該人の音声に音声認識を行って認識テキストを得て、且つ該認識テキストを検索モジュール25の未定認識コード確定ユニットに送信し、検索モジュール25の未定認識コード確定ユニットは予設定のシソーラスに基づいて該認識テキストに単語分割処理を行って複数の未定認識コードを得て、次に検索モジュール25の認識コード確定ユニットは未定認識コード確定ユニットの確定した未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定し、且つ確定した複数の認識コードを検索モジュール25の検索ユニットに送信し、検索モジュール25の検索ユニットはマルチメディアデータベース21に、前記複数の認識コードに基づいて検索を行うことをリクエストし、相応のマルチメディア情報を得て、最後にフィードバックモジュール26は検索ユニットの検索したマルチメディア情報をユーザにフィードバックする。
更に、本発明の電子機器はさらに関連付けモジュール27を備え、該関連付けモジュール27はダウンロードモジュール22の取得したダウンロードリンクと相応のマルチメディア情報を関連付ける。このように、歌を聞くユーザから取得するダウンロードリンクは、電子機器に記憶するダウンロードリンクと同じの場合、関連付けモジュール27の関連付けた相応のマルチメディア情報の検索結果をユーザに直接フィードバックし、これにより、認識、検索を行う資源を大幅に節約した。
本発明の電子機器の具体的な稼動原理は以下のマルチメディア情報検索方法の具体的な実施形態と同様又は類似であり、以下のマルチメディア情報検索方法の具体的な実施形態を参照できる。本発明の電子機器の各モジュールは相互に一体化にすることができ、又はあるモジュールを複数の独立機能のモジュールに分割し、各モジュールの間は直接接続してもよく、間接接続してもよい。
本発明は図3に示すようなマルチメディア情報検索方法をさらに提供する。図3は本発明のマルチメディア情報検索方法の好ましい実施形態のフローチャートである。該マルチメディア情報検索方法は、
検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出するステップS301と、
検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るステップS302と、
認識テキストに基づいてマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を得るステップS303と、
マルチメディア情報をユーザに展示するステップS304とを含む。
以下、図3と図4を参照しながら本発明のマルチメディア情報検索方法の各ステップの詳細フローを詳しく説明する。図4は図3に示すマルチメディア情報検索方法におけるステップ303の詳細なフローチャートである。
ステップS301において、検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出する。該ステップでは、主に人の歌う音声をマルチメディア音声から分離し、具体的な分離プロセスは聴覚シーン分析技術又はブラインド信号分離技術等の音声分離方法に基づくものであってもよく、このように、1チャンネルの人の歌う音声信号を出力できる。マルチメディア音声の持続時間の選択について、マルチメディア全体の長さを選択してもよく、マルチメディアの一部のみを選択してもよい。一般的には選択したマルチメディア音声の時間が長ければ長いほど消耗する演算資源が多くなるが、後続ステップに提供する情報も多くなり、これにより後続ステップで正確な検索を行うことに便利である。
ステップS302において、検索待ちマルチメディアの音声に音声認識を行って認識テキストを得る。該ステップでは、主に人の歌う音声信号を認識テキストに変換し、即ち人間の音声中の語彙のコンテンツをコンピュータ読み取り可能な入力、例えばプッシュボタン、2進化コード又は文字列等に変換する。該認識テキストは複数の認識コードを備え、認識コードは中国語文字、中国語の語彙、ピンイン、英語文字及び/又は英語の語彙等を備えるが、それに限定されない。現在、具体的な音声認識プロセスは統計的パターン認識技術等の音声認識方法を使用できる。音声認識自体に不確定なエラー率の存在が可能であるため、マルチメディア音声を抽出する時間を増加することで、音声認識エラーによる後続のマルチメディア検索エラーの確率を減少させることができる。
図4に示すように、ステップS303は具体的に下記ステップS3031〜ステップS3033を含む。
ステップS3031において、予設定のシソーラスに基づいて認識テキストに単語分割処理を行って複数の未定認識コードを得る。
音声認識がある程度のエラー率を有するため、認識された認識テキストに対して直接に検索を行うと、小さな認識エラーで最終の検索失敗をもたらす可能性がある。従って、ここで予設定のシソーラスによって認識テキストに単語分割処理を行い、認識テキストの中の複数の小さいユニットを得る。即ち未定認識コードである。
該未定認識コードは中国語文字、中国語の語彙、ピンイン、英語文字及び/又は英語の語彙等を含むが、それに限定されるだけでなく、具体的には予設定のシソーラスの類型に基づいて区分する。予設定のシソーラスが中国語文字と語彙だけに対応する場合、認識テキストを複数の中国語文字又は中国語語彙類型の未定認識コードのみに区分し、予設定のシソーラスが中国語とピンインに対応し、同時にマルチメディアデータベースもピンイン検索に対応する場合、一部の認識できない中国語文字をピンインの形で検索することができる。このように検索の品質をさらに保証でき、検索エラーを避けられ、予設定のシソーラスが中国語と英語に同時対応できる場合、英語を有するマルチメディア又は英語マルチメディアを直接検索できる。
ステップS3032において、未定認識コードのシソーラスにおける単語頻度に基づいて、複数の認識コードを確定する。
シソーラスから選出された各未定認識コードはいずれもシソーラスにおいて単語頻度の属性を一つ有し、未定認識コードの単語頻度の大きさは該未定認識コードが日常生活で使用される頻繁度(シソーラスは人々のネットワークでよく使用する語彙をまとめて得られるものである)を示し、該未定認識コードは日常生活で使用される頻繁度が大きければ大きいほど、該未定認識コードの単語頻度が大きくなり、さもないと該未定認識コードの単語頻度が小さくなる。
検索で消耗する資源を減少させるために、未定認識コードのシソーラスにおける単語頻度に基づいて未定認識コードを若干選出して最後にマルチメディア検索に用いられる認識コードとする。具体のプロセスは以下の通りである。
未定認識コードを未定認識コードのシソーラスにおける単語頻度に基づいて昇順で配列し、次に単語頻度が最も低いn個の未定認識コードを選出し、また、m個の未定認識コードをランダムに選出し、こうしてn個の未定認識コードと前記m個の未定認識コードが重複でなく、最後にn個の未定認識コードと前記m個の未定認識コードを認識コードに設定し、ここでnが1以上であり、mが0以上である。ここでn個の未定認識コードは単語頻度が低いため、ある程度で検索結果の正確性を保証でき、m個の未定認識コードは低単語頻度の未定認識コードのもたらし可能な検索失敗(ここで検索はファジー検索であり、ある程度の検索条件を満たした場合、検索ユーザにフィードバックする)をある程度で回避できる。ここのn値とm値はユーザの要求によって柔軟に設定できる。
ステップS3033において、以上で確定した複数の認識コードを使用してマルチメディアデータベースで検索を行って検索待ちマルチメディアのマルチメディア情報を得る。
ここで検索プロセスは検索結果に基づいて調整でき、検索フィードバック結果が多すぎる場合、相応的に未定認識コードに新しい認識コードを増加し、或いは検索条件を精細化させ、精度の高い検索条件を満たす検索結果をユーザにフィードバックする。検索フィードバックが失敗する場合、相応的に認識コードの数量を減少させて再び検索を行い、これにより、音声認識エラーで生成する認識コードによる検索失敗を避ける。ここで、具体的な検索プロセスは実際状況に基づいて設定でき、検索の具体的なプロセスの異なりが本発明の保護範囲を影響しない。マルチメディアデータベースはローカルコンピュータにあるローカルマルチメディアデータベースであってもよく、ネットワークに位置する、サーバのネットワークマルチメディアデータベースであってもよい。
ステップS304において、検索したマルチメディアのマルチメディア情報をユーザに展示する。ここでのマルチメディア情報はユーザの知りたい検索マルチメディアに関する各種の関連情報であってよく、該マルチメディアの歌の名称、シンガー、歌詞、アルバム、バックグラウンド情報、楽譜及びマルチメディアダウンロードリンク等を含むが、それに限定されず、一部のユーザに対して、該マルチメディアのダウンロードリンク、例えばネットワークオンラインマルチメディアのフリーダウンロードリンク、及びユーザローカルマルチメディアと相応のフリー正規版リンク等を展示してもよい。
前記ステップS301〜ステップS304によって検索待ちマルチメディアに対する自動検索を完成し、且つ検索結果を迅速に歌を聞くユーザにフィードバックする。
本発明のマルチメディア情報検索方法をユーザ側に用いれる場合、図5に示すように、図5は本発明のマルチメディア情報検索方法をユーザ側に使用する使用模式図である。こうして音声抽出、音声認識、結果展示はいずれもユーザ側で発生し、検索に用いられるマルチメディアデータベースは検索サーバ側に設置され、検索サーバは検索作用のみを担当する。
本発明のマルチメディア情報検索方法をサーバ側に用いれる場合、図6に示すように、図6は本発明のマルチメディア情報検索方法がサーバ側に使用される使用模式図である。こうしてユーザはネットワークブラウザによって検索待ちマルチメディアのダウンロードリンクを検索サーバに送信し、検索サーバは検索結果をユーザにフィードバックする。ここで検索サーバはマルチメディアの検索を行うだけでなく、マルチメディアのダウンロード、音声抽出、音声認識、結果フィードバック等の操作も行い、こうしてユーザの操作をさらに便利にする。
当業者は、前記実施形態の方法における全部又は一部のフローの実現は、コンピュータプログラムによって関連ハードウェアに指令を出して達成でき、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶でき、該プログラムが実行する時、上記各方法の実施形態におけるフローを含むことができることを理解できる。前記記憶媒体は磁気ディスク、光ディスク、リードオンリーメモリ(Read−Only Memory、ROM)又はランダムアクセスメモリ(Random Access Memory、RAM)等でよい。
本発明のマルチメディア情報検索方法、電子機器、記憶媒体はユーザの知りたいマルチメディア情報を自動、迅速且つ全面的にユーザに呈し、ユーザの、歌を聞く興味・体験を大幅に増加する。従来のマルチメディア検索プロセスが複雑で且つエラーが発生しやすい技術課題を解決する。同時に本発明の電子機器ではユーザが自分のコンピュータでマルチメディアの検索を行うことを便利にし、電子機器はユーザのリクエストに応じてサーバでマルチメディアの検索を行うことができ、検索結果のみをユーザにフィードバックし、ユーザの操作をさらに便利にする。
本出願において使用する「コンポーネント」、「モジュール」、「システム」、「インターフェース」等の用語は一般的にハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア又は実行中のソフトウェアというコンピュータの関連実体を指すものである。例えば、コンポーネントはプロセッサ上で運行するプロセス、プロセッサ、オブジェクト、実行可能なアプリケーション、実行のスレッド、プログラム及び/又はコンピュータであってもよいが、これらに限定されない。図示により、コントローラ上で運行するアプリケーションと該コントローラは両方ともコンポーネントであってもよい。1つの又は複数のコンポーネントは実行のプロセス及び/又はスレッドの中に存在してよく、且つコンポーネントは1つのコンピュータに位置してよく、及び/又は2つ以上のコンピュータ同士の間で分散されてもよい。
且つ、保護請求の主題は、標準的なプログラミング及び/又はエンジニアリング技術を用いてソフトウェア、ファームウェア、ハードウェア、又はこれらの任意の組み合わせを生成することで、コンピュータを制御して開示される主題の方法、装置又は製造品を実現するように達成される。本願で使用する「製造品」という用語は、コンピュータ読み取り可能な機器、キャリヤ、又は媒体のいずれからアクセスできるコンピュータプログラムを含むものである。もちろん、当業者は保護請求の主題の範囲又は精神を逸脱せずに、該配置に対し、多くの変更がなされ得ることを知るべきである。
図7及びこれからの検討は本発明に記載の電子機器を実現する動作環境に対する簡潔で、概括的な説明を提供する。図7の動作環境は適宜な動作環境の1つの実例だけであり、且つ動作環境の用途又は機能の範囲に関する限定ではない。実例の電子機器712はパソコン、サーバコンピュータ、ハンドヘルド又はラップトップ機器、携帯機器(例えば携帯電話、パーソナルデジタルアシスタント(PDA)、メディアプレーヤ等)、マルチプロセッサシステム、消費型電子機器、小型コンピュータ、大型コンピュータ、前記任意のシステム又は機器を備える分散型演算環境、等を含むが、それらに限定されない。
特に要求されていないが、「コンピュータ読み取り可能な指令」が1つ又は複数の電子機器によって実行される汎用背景で実施形態を説明する。コンピュータ読み取り可能な指令はコンピュータ読み取り可能な媒体によって分散できる(以下、検討する)。コンピュータ読み取り可能な指令はプログラムモジュールとして実現でき、例えば特定タスクを実行し又は特定抽象データ類型を実現する機能、オブジェクト、アプリケーションプログラミングインターフェース(API)、データ構造等である。典型的に、該コンピュータ読み取り可能な指令の機能は各種の環境で任意に組み合わせ又は分散できる。
図7は本発明のマルチメディア情報検索方法の1つ又は複数の実施形態を含む電子機器712の実例を示す。1種の配置において、電子機器712は少なくとも1つの処理ユニット716とメモリ718を備える。電子機器の確実な配置と類型によって、メモリ718は揮発性メモリ(例えばRAM)、非揮発性メモリ(例えばROM、フラッシュメモリ等)、又は両方の組み合わせであってもよい。該配置は図7において破線714によって示される。
他の実施形態において、電子機器712は付加要件及び/又は機能を含んでもいい。例えば、機器712はさらに付加記憶装置(例えば取り外し可能な記憶装置及び/又は取り外し不可能な記憶装置)を含んでもよく、前記記憶装置は磁気記憶装置、光記憶装置等でよいが、それらに限定されない。このような付加記憶装置は図7において記憶装置720によって示される。1つの実施形態では、本願の提供する1つの又は複数の実施形態を実現するコンピュータ読み取り可能な指令は記憶装置720にあってもよい。記憶装置720はさらに操作システム、アプリケーションプログラム等を実現するための他のコンピュータ読み取り可能な指令を記憶してもいい。コンピュータ読み取り可能な指令はメモリ718にロードされて例えば処理ユニット716によって実行されてもよい。
本願で使用する「コンピュータ読み取り可能な媒体」という用語はコンピュータ記憶媒体を含む。コンピュータ記憶媒体はコンピュータ読み取り可能な指令又は他のデータなどの情報を記憶するためのいずれかの方法又は技術で実現する揮発性と非揮発性、取り外し可能と取り外し不可能な媒体を含む。メモリ718と記憶装置720はコンピュータ記憶媒体の実例である。コンピュータ記憶媒体はRAM、ROM、EEPROM、フラッシュメモリ又は他のメモリ技術、CD−ROM、デジタル汎用ディスク(DVD)又は他の光記憶装置、カセットテープ、テープ、磁気ディスク記憶装置又は他の磁気記憶装置、又は希望情報を記憶し且つ電子機器712がアクセスできる任意の他の媒体を含むが、それらに限定されない。任意のこのようなコンピュータ記憶媒体は電子機器712の一部であってもよい。
電子機器712は電子機器712と他の機器との通信を許可する通信接続726をさらに含んでもいい。通信接続726はモデム、ネットワークインターフェースカード(NIC)、集積ネットワークインターフェース、無線周波送信機/受信機、赤外線ポート、USB接続又は電子機器712を他の電子機器に接続する他のインターフェースを含むことができるが、それらに限定されない。通信接続726は有線接続であってもよく、無線接続であってもいい。通信接続726は通信媒体を送信・受信できる。
「コンピュータ読み取り可能な媒体」という用語は通信媒体を含んでもよい。通信媒体は典型的に、コンピュータ読み取り可能な指令又は、搬送波又は他の伝送機構のような「変調したデータ信号」の中の他のデータを含み、且ついずれかの情報伝送媒体を含む。「変調したデータ信号」という用語は、信号特性中の1つ又は複数が情報を信号にコーディングする方式で設置又は変更される信号を含んでもよい。
電子機器712は、例えばキーボード、マウス、ペン、音声入力機器、タッチ入力機器、赤外線カメラ、ビデオ入力機器及び/又は任意の他の入力機器のような入力機器724を含んでもいい。機器712は、例えば1つ又は複数のディスプレイ、スピーカー、プリンター及び/又は任意の他の出力機器のような出力機器722を含んでもいい。入力機器724と出力機器722は有線接続、無線接続又はその任意の組み合わせによって電子機器712に接続される。1つの実施形態において、他の電子機器からの入力機器又は出力機器は電子機器712の入力機器724又は出力機器722として用いることができる。
電子機器712のコンポーネントは各種の相互接続(例えば、バス)によって接続される。このような相互接続は周辺コンポーネント相互接続(PCI)(例えば、迅速PCI)、ユニバーサルシリアルバス(USB)、ファイアワイア(IEEE1394)、光学バス構造等を含んでもよい。他の実施形態では、電子機器712のコンポーネントはネットワークによって相互接続されてもよい。例えば、メモリ718は異なる物理位置に位置する、ネットワークによって相互接続される複数の物理メモリユニットで構成されてもよい。
コンピュータ読み取り可能な指令を記憶するための記憶機器がネットワークを経て分散できることは、当業者にとって明らかである。例えば、ネットワーク728を経てアクセスできる電子機器730は本発明の提供する1つ又は複数の実施形態を実現するためのコンピュータ読み取り可能な指令を記憶できる。電子機器712は電子機器730にアクセスでき且つコンピュータ読み取り可能な指令の一部又は全体をダウンロードして実行させる。代わりに、電子機器712は需要に応じて、複数のコンピュータ読み取り可能な指令をダウンロードし、又はいくつかの指令は電子機器712で実行され、且ついくつかの指令は電子機器730で実行されることができる。
本願が実施形態の各種の操作を提供した。1つの実施形態では、前記1つ又は複数の操作は1つ又は複数のコンピュータ読み取り可能な媒体で記憶されるコンピュータ読み取り可能な指令を構成でき、それが電子機器によって実行される時、演算機器に前記操作を実行させる。一部又はすべての操作を説明する順序はこれら操作が必ずこんな順序で関連しなければならないことを暗示するように解釈すべきではない。当業者は、本明細書のメリットを有する他の取替えできる順序付けを理解し、且つ、すべての操作が本願の提供する各実施形態に存在しなければならないものではないことも理解できる。
また、本願が使用する「好ましい」という表現は実例、例示又は例証として用いることを意味する。「好ましい」と説明される任意の方面又は設計は必ずしも他の方面又は設計よりも有利だと解釈すべきではない。一方、「好ましい」の使用は具体的な方式で概念を提出することが意図される。本出願が使用する「又は」という用語は、排他的な「又は」ではなく包括的な「又は」を意味することが意図される。すなわち、その他の指定があるまたはコンテキストから明らかである以外の場合、「Xは、AまたはBを用いる」というのは、当然の包括的な置換のうちのいずれかを意味することが意図される。すなわち、「Xは、AまたはBを用いる」は、以下の任意の場合によって満たされる。すなわち、XはAを用いること、XはBを用いること、またはXはAおよびBの両方を用いること、である。
また、1つ又は複数の実現方式に対して本開示を示し且つ説明したが、当業者は本明細書と図面の閲読及び理解に基づいて等価変更と修正を考え付いた。本開示はすべての上記修正と変更を含み、かつ添付の請求の範囲のみによって限定される。特に、前記コンポーネント(例えば、素子、資源等)によって実行する各種の機能について、このようなコンポーネントを説明する用語は前記コンポーネントの指定機能(例えば、機能的等価である)を実行する任意のコンポーネント(他に指示がない限り)に対応することが意図され、たとえ構造上で本願の開示する本開示の例示的な実現方式中の機能の開示構造と異なってもいい。なお、本開示の特定特徴は若干の実現方式中のただ1つに対し、開示されたが、このような特徴は所定又は特定アプリケーションにとっては希望又は有利の他の実現方式の1つ又は複数の他の特徴と組み合わせてもよい。且つ、「含む」、「有する」、「含有」という用語又はその変体が具体的な実施形態又は請求の範囲に用いられることにとって、このような用語は用語「含む」と類似する方式で包括的であることが意図される。
以上のことにより、本発明では好ましい実施形態を前述の通り開示したが、これは本発明を限定するものではなく、当業者が、本発明の精神と範囲を離脱しない限り、各種の変更と修飾をすることができるため、本発明の保護範囲は請求の範囲で定められるものに準ずる。
本発明の電子機器の好ましい実施形態の構造模式図である。 本発明の電子機器の好ましい実施形態の構造模式図である。 本発明のマルチメディア情報検索方法の好ましい実施形態のフローチャートである。 図1に示すマルチメディア情報検索方法におけるステップS303の詳細なフローチャートである。 本発明のマルチメディア情報検索方法がユーザ側に使用される使用模式図である。 本発明のマルチメディア情報検索方法がサーバ側に使用される使用模式図である。 本発明の電子機器の動作環境の構造模式図である。
本発明は図3に示すようなマルチメディア情報検索方法をさらに提供する。図3は本発明のマルチメディア情報検索方法の好ましい実施例のフローチャートである。該マルチメディア情報検索方法は、
検索待ちマルチメディアから検索待ちマルチメディアの音声を抽出するステップS301と、
検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るステップS302と、
認識テキストに基づいてマルチメディアデータベースで検索して、検索待ちマルチメディアのマルチメディア情報を得るステップS303と、
マルチメディア情報をユーザに展示するステップS304とを含む。
以下、図3と図4を参照しながら本発明のマルチメディア情報検索方法の各ステップの詳細フローを詳しく説明する。図4は図3に示すマルチメディア情報検索方法におけるステップS303の詳細なフローチャートである。
また、1つ又は複数の実現方式に対して本開示を示し且つ説明したが、当業者は本明細書と図面の閲読及び理解に基づいて等価変更と修正を考え付いた。本開示はすべての上記修正と変更を含み、かつ添付の請求の範囲のみによって限定される。なお、本開示の特定特徴は若干の実現方式中のただ1つに対し、開示されたが、このような特徴は所定又は特定アプリケーションにとっては希望又は有利の他の実現方式の1つ又は複数の他の特徴と組み合わせてもよい。且つ、「含む」、「有する」、「含有」という用語又はその変体が具体的な実施形態又は請求の範囲に用いられることにとって、このような用語は用語「含む」と類似する方式で包括的であることが意図される。

Claims (16)

  1. マルチメディア情報検索方法であって、
    検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するステップ、
    前記検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るステップ、及び
    前記認識テキストに基づいてマルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るステップ、を含むマルチメディア情報検索方法。
  2. 前記認識テキストに基づいてマルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得る前記ステップは、
    予設定のシソーラスに基づいて前記認識テキストに単語分割処理を行って複数の未定認識コードを得るステップ、
    前記未定認識コードの前記シソーラスにおける単語頻度に基づいて、複数の認識コードを確定するステップ、及び
    前記複数の認識コードを使用して前記マルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るステップ、を含む請求項1に記載のマルチメディア情報検索方法。
  3. 前記未定認識コードが文字、ピンイン及び英語のうちの少なくとも1種である請求項2に記載のマルチメディア情報検索方法。
  4. 前記未定認識コードの前記シソーラスにおける単語頻度に基づいて、複数の認識コードを確定する前記ステップは、具体的に、
    すべての未定認識コードのうちから、前記シソーラスにおける単語頻度が最も低いn個の未定認識コードを選択し、その後、ランダムにm個の未定認識コードを選択し、前記n個の未定認識コードと前記m個の未定認識コードが重複でなく、前記n個の未定認識コード及び前記m個の未定認識コードを認識コードに設定し、nが1以上であり、mが0以上であることを含む請求項2に記載のマルチメディア情報検索方法。
  5. 前記マルチメディア情報検索方法は、前記マルチメディア情報をユーザに展示するステップをさらに含み、前記マルチメディア情報は歌の名称、シンガー、歌詞、アルバム、バックグラウンド情報、楽譜及びマルチメディアダウンロードリンクのうちの少なくとも1つを含む請求項1に記載のマルチメディア情報検索方法。
  6. 電子機器であって、
    1つ又は1つ以上のプロセッサ、
    メモリ、及び
    1つ又は1つ以上のプログラムを含み、前記1つ又は1つ以上のプログラムが前記メモリに記憶され、且つ前記1つ又は1つ以上のプロセッサによって実行するように配置されてマルチメディア情報検索方法を提供し、
    前記1つ又は1つ以上のプログラムは、機能によって分けられ、
    検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するための音声抽出モジュール、
    前記検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るための音声認識モジュール、及び
    前記認識テキストに基づいてマルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るための検索モジュール、を含む電子機器。
  7. 前記検索モジュールは、
    予設定のシソーラスに基づいて前記認識テキストに単語分割処理を行って複数の未定認識コードを得るための未定認識コード確定ユニット、
    前記未定認識コードの前記シソーラスにおける単語頻度に基づいて、複数の認識コードを確定するための認識コード確定ユニット、及び
    前記複数の認識コードを使用して前記マルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るための検索ユニットを含む請求項6に記載の電子機器。
  8. 前記未定認識コードが文字、ピンイン及び英語のうちの少なくとも1種である請求項7に記載の電子機器。
  9. 前記認識コード確定ユニットは具体的に、すべての未定認識コードのうちから前記シソーラスにおける単語頻度が最も低いn個の未定認識コードを選択し、その後、ランダムにm個の未定認識コードを選択し、前記n個の未定認識コードと前記m個の未定認識コードが重複でなく、前記n個の未定認識コード及び前記m個の未定認識コードを認識コードに設定することに用いられ、nが1以上であり、mが0以上である請求項7に記載の電子機器。
  10. 前記電子機器は、前記マルチメディア情報をユーザに展示するためのマルチメディア展示モジュールをさらに含み、前記マルチメディア情報は歌の名称、シンガー、歌詞、アルバム、バックグラウンド情報、楽譜及びマルチメディアダウンロードリンクのうちの少なくとも1つを含む請求項6に記載の電子機器。
  11. 電子機器であって、
    1つ又は1つ以上のプロセッサ、
    メモリ、及び
    1つ又は1つ以上のプログラムを含み、前記1つ又は1つ以上のプログラムは前記メモリに記憶され、且つ前記1つ又は1つ以上のプロセッサによって実行するように配置されてマルチメディア情報検索方法を提供し、
    前記1つ又は1つ以上のプログラムは、機能によって分けられ、
    マルチメディア情報を記憶するためのマルチメディアデータベース、
    検索待ちマルチメディアのダウンロードリンクによって前記検索待ちマルチメディアをダウンロードするためのダウンロードモジュール、
    検索待ちマルチメディアから前記検索待ちマルチメディアの音声を抽出するための音声抽出モジュール、
    前記検索待ちマルチメディアの音声に音声認識を行って認識テキストを得るための音声認識モジュール、及び
    前記認識テキストに基づいてマルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るための検索モジュール、を含む電子機器。
  12. 前記検索モジュールは、
    予設定のシソーラスに基づいて前記認識テキストに単語分割処理を行って複数の未定認識コードを得るための未定認識コード確定ユニット、
    前記未定認識コードの前記シソーラスにおける単語頻度に基づいて、複数の認識コードを確定するための認識コード確定ユニット、及び
    前記複数の認識コードを使用して前記マルチメディアデータベースで検索を行って前記検索待ちマルチメディアのマルチメディア情報を得るための検索ユニットを含む請求項11に記載の電子機器。
  13. 前記未定認識コードが文字、ピンイン及び英語のうちの少なくとも1種である請求項12に記載の電子機器。
  14. 前記認識コード確定ユニットは具体的に、すべての未定認識コードのうちから前記シソーラスにおける単語頻度が最も低いn個の未定認識コードを選択し、その後、ランダムにm個の未定認識コードを選択し、前記n個の未定認識コードと前記m個の未定認識コードが重複でなく、前記n個の未定認識コード及び前記m個の未定認識コードを認識コードに設定することに用いられ、nが1以上であり、mが0以上である請求項12に記載の電子機器。
  15. 前記電子機器は、
    前記マルチメディア情報をユーザにフィードバックするためのフィードバックモジュールをさらに含み、前記マルチメディア情報は歌の名称、シンガー、歌詞、アルバム、バックグラウンド情報、楽譜及びマルチメディアダウンロードリンクのうちの少なくとも1つを含む請求項11に記載の電子機器。
  16. 前記電子機器は、前記ダウンロードモジュールの取得したダウンロードリンクと相応のマルチメディア情報を関連付けるための関連付けモジュールをさらに含む請求項11に記載の電子機器。
JP2015523408A 2012-08-24 2013-08-21 マルチメディア情報検索方法及び電子機器 Active JP5948671B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210303990.7 2012-08-24
CN201210303990.7A CN103631802B (zh) 2012-08-24 2012-08-24 歌曲信息检索方法、装置及相应的服务器
PCT/CN2013/081992 WO2014029338A1 (zh) 2012-08-24 2013-08-21 多媒体信息检索方法及电子设备

Publications (3)

Publication Number Publication Date
JP2015522892A true JP2015522892A (ja) 2015-08-06
JP2015522892A5 JP2015522892A5 (ja) 2016-06-02
JP5948671B2 JP5948671B2 (ja) 2016-07-06

Family

ID=50149454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015523408A Active JP5948671B2 (ja) 2012-08-24 2013-08-21 マルチメディア情報検索方法及び電子機器

Country Status (5)

Country Link
US (1) US9704485B2 (ja)
EP (1) EP2889786A4 (ja)
JP (1) JP5948671B2 (ja)
CN (1) CN103631802B (ja)
WO (1) WO2014029338A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104010063B (zh) * 2014-05-09 2018-01-02 郑明� 移动终端回铃信息的显示方法及设备
CN104598515A (zh) * 2014-12-03 2015-05-06 百度在线网络技术(北京)有限公司 歌曲搜索方法、装置和系统
CN104882146B (zh) * 2015-05-12 2018-05-15 北京音之邦文化科技有限公司 音频推广信息的处理方法及装置
CN105677711A (zh) * 2015-12-28 2016-06-15 小米科技有限责任公司 信息显示方法和装置
CN105828210A (zh) * 2016-03-15 2016-08-03 武汉斗鱼网络科技有限公司 一种基于弹幕的点播歌曲的方法及装置
CN105956014A (zh) * 2016-04-22 2016-09-21 成都涂鸦科技有限公司 一种基于深度学习的音乐播放方法
WO2018018283A1 (zh) * 2016-07-24 2018-02-01 张鹏华 歌曲信息识别技术的使用情况统计方法和识别系统
CN106896933B (zh) * 2017-01-19 2019-12-06 深圳情景智能有限公司 将语音输入转换成文本输入的方法、装置和语音输入设备
US11017771B2 (en) * 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
US10964322B2 (en) 2019-01-23 2021-03-30 Adobe Inc. Voice interaction tool for voice-assisted application prototypes
CN110795593A (zh) * 2019-10-12 2020-02-14 百度在线网络技术(北京)有限公司 语音包的推荐方法、装置、电子设备和存储介质
CN111368136A (zh) * 2020-03-31 2020-07-03 北京达佳互联信息技术有限公司 歌曲识别方法、装置、电子设备及存储介质
KR102362815B1 (ko) * 2020-05-18 2022-02-14 니나노 주식회사 음성 인식 선곡 서비스 제공 방법 및 음성 인식 선곡 장치
CN113658594A (zh) * 2021-08-16 2021-11-16 北京百度网讯科技有限公司 歌词识别方法、装置、设备、存储介质及产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258874A (ja) * 2001-03-01 2002-09-11 Alpine Electronics Inc 音楽試聴方法、システムおよび情報端末、音楽検索サーバ
JP2006186426A (ja) * 2004-12-24 2006-07-13 Toshiba Corp 情報検索表示装置、情報検索表示方法および情報検索表示プログラム
JP2007524949A (ja) * 2004-02-11 2007-08-30 アメリカ オンライン インコーポレーティッド 自動訂正機能を備えた手書き文字入力およびボイス入力
JP2010157080A (ja) * 2008-12-26 2010-07-15 Ntt Communications Kk コンテンツ関連情報検索システム、コンテンツ関連情報検索方法、およびコンテンツ関連情報検索プログラム

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
US4829572A (en) * 1987-11-05 1989-05-09 Andrew Ho Chung Speech recognition system
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
EP0708958B1 (en) * 1993-07-13 2001-04-11 Theodore Austin Bordeaux Multi-language speech recognition system
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
SG42314A1 (en) * 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US5832478A (en) * 1997-03-13 1998-11-03 The United States Of America As Represented By The National Security Agency Method of searching an on-line dictionary using syllables and syllable count
US6032111A (en) * 1997-06-23 2000-02-29 At&T Corp. Method and apparatus for compiling context-dependent rewrite rules and input strings
ITTO980383A1 (it) * 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
US6219640B1 (en) * 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6892191B1 (en) * 2000-02-07 2005-05-10 Koninklijke Philips Electronics N.V. Multi-feature combination generation and classification effectiveness evaluation using genetic algorithms
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US7072827B1 (en) * 2000-06-29 2006-07-04 International Business Machines Corporation Morphological disambiguation
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system
US7124080B2 (en) * 2001-11-13 2006-10-17 Microsoft Corporation Method and apparatus for adapting a class entity dictionary used with language models
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US20050038814A1 (en) * 2003-08-13 2005-02-17 International Business Machines Corporation Method, apparatus, and program for cross-linking information sources using multiple modalities
US20050071148A1 (en) * 2003-09-15 2005-03-31 Microsoft Corporation Chinese word segmentation
JP2005266198A (ja) * 2004-03-18 2005-09-29 Pioneer Electronic Corp 音響情報再生装置および音楽データのキーワード作成方法
US20070242071A1 (en) * 2004-05-24 2007-10-18 Harding Patrick M Character Display System
CN1750117A (zh) * 2004-09-16 2006-03-22 乐金电子(惠州)有限公司 伴唱机歌曲搜索系统及其旋律数据库构成方法
US7680648B2 (en) * 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US7996208B2 (en) * 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
US8463611B2 (en) * 2004-10-13 2013-06-11 Hewlett-Packard Development Company, L.P. Method and system for improving the fidelity of a dialog system
TWI277949B (en) * 2005-02-21 2007-04-01 Delta Electronics Inc Method and device of speech recognition and language-understanding analysis and nature-language dialogue system using the method
US7516125B2 (en) * 2005-08-01 2009-04-07 Business Objects Americas Processor for fast contextual searching
NO326770B1 (no) * 2006-05-26 2009-02-16 Tandberg Telecom As Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon
US8694318B2 (en) * 2006-09-19 2014-04-08 At&T Intellectual Property I, L. P. Methods, systems, and products for indexing content
US20080085099A1 (en) * 2006-10-04 2008-04-10 Herve Guihot Media player apparatus and method thereof
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
US20090031885A1 (en) * 2007-07-31 2009-02-05 Christopher Lee Bennetts Networked karaoke system and method
CN100470633C (zh) * 2007-11-30 2009-03-18 清华大学 语音点歌方法
CN101634987A (zh) * 2008-07-21 2010-01-27 上海天统电子科技有限公司 多媒体播放器
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
JP5697860B2 (ja) * 2009-09-09 2015-04-08 クラリオン株式会社 情報検索装置,情報検索方法及びナビゲーションシステム
CN102236686A (zh) * 2010-05-07 2011-11-09 盛乐信息技术(上海)有限公司 语音分段式歌曲检索方法
CN102404278A (zh) * 2010-09-08 2012-04-04 盛乐信息技术(上海)有限公司 一种基于声纹识别的点歌系统及其应用方法
US20140180762A1 (en) * 2012-12-12 2014-06-26 Ishlab, Inc. Systems and methods for customized music selection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002258874A (ja) * 2001-03-01 2002-09-11 Alpine Electronics Inc 音楽試聴方法、システムおよび情報端末、音楽検索サーバ
JP2007524949A (ja) * 2004-02-11 2007-08-30 アメリカ オンライン インコーポレーティッド 自動訂正機能を備えた手書き文字入力およびボイス入力
JP2006186426A (ja) * 2004-12-24 2006-07-13 Toshiba Corp 情報検索表示装置、情報検索表示方法および情報検索表示プログラム
JP2010157080A (ja) * 2008-12-26 2010-07-15 Ntt Communications Kk コンテンツ関連情報検索システム、コンテンツ関連情報検索方法、およびコンテンツ関連情報検索プログラム

Also Published As

Publication number Publication date
CN103631802B (zh) 2015-05-20
CN103631802A (zh) 2014-03-12
EP2889786A1 (en) 2015-07-01
EP2889786A4 (en) 2016-03-30
US9704485B2 (en) 2017-07-11
JP5948671B2 (ja) 2016-07-06
WO2014029338A1 (zh) 2014-02-27
US20150154958A1 (en) 2015-06-04

Similar Documents

Publication Publication Date Title
JP5948671B2 (ja) マルチメディア情報検索方法及び電子機器
US11682380B2 (en) Systems and methods for crowdsourced actions and commands
EP3648099B1 (en) Voice recognition method, device, apparatus, and storage medium
WO2021139701A1 (zh) 一种应用推荐方法、装置、存储介质及电子设备
US8745051B2 (en) Resource locator suggestions from input character sequence
US10122839B1 (en) Techniques for enhancing content on a mobile device
CN108369580B (zh) 针对屏幕上项目选择的基于语言和域独立模型的方法
US9342233B1 (en) Dynamic dictionary based on context
US9691381B2 (en) Voice command recognition method and related electronic device and computer-readable medium
JP2015522892A5 (ja)
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US11830482B2 (en) Method and apparatus for speech interaction, and computer storage medium
US11675607B2 (en) Data transfers from memory to manage graphical output latency
EP3523718A1 (en) Creating a cinematic storytelling experience using network-addressable devices
JP2020516980A (ja) コンテキストディープブックマーキング
US20140136196A1 (en) System and method for posting message by audio signal
EP3161675B1 (en) Indexing actions for resources
EP3374879A1 (en) Provide interactive content generation for document
JP2023514863A (ja) 情報を交換するための方法及び装置
WO2023040692A1 (zh) 语音控制方法、装置、设备及介质
CN117636915A (zh) 调整播放进度的方法、相关装置及计算机程序产品
CN117828170A (zh) 一种信息获取方法、设备及系统
CN112162955A (zh) 用户日志的处理装置及方法
CN112102820A (zh) 交互方法、交互装置、电子设备和介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150121

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20160405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160518

R150 Certificate of patent or registration of utility model

Ref document number: 5948671

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250