JP6855527B2 - 情報を出力するための方法、及び装置 - Google Patents

情報を出力するための方法、及び装置 Download PDF

Info

Publication number
JP6855527B2
JP6855527B2 JP2019047116A JP2019047116A JP6855527B2 JP 6855527 B2 JP6855527 B2 JP 6855527B2 JP 2019047116 A JP2019047116 A JP 2019047116A JP 2019047116 A JP2019047116 A JP 2019047116A JP 6855527 B2 JP6855527 B2 JP 6855527B2
Authority
JP
Japan
Prior art keywords
user
multimedia file
information
multimedia
voiceprint feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019047116A
Other languages
English (en)
Other versions
JP2019216408A (ja
Inventor
ホウ,ツァイポン
ルアン,シューハン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019216408A publication Critical patent/JP2019216408A/ja
Application granted granted Critical
Publication of JP6855527B2 publication Critical patent/JP6855527B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4753End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本願の実施形態は、スマートテレビの技術分野に関し、具体的に、情報を出力するための方法、及び装置に関する。
スマートテレビは、私たちの生活の中で広く使われているが、伝統的な番組視聴機能に限られていない。現在、人気テレビアプリケーション市場では、テレビ実況中継、ビデオ・オン・デマンド、株式金融、健康生活、システム最適化ツール等にかけて、何百も何千もテレビアプリケーションがユーザーに提供されている。
従来技術において、テレビは、通常に家庭共通設備として、家族構成員のそれぞれに同じサービスを提供している。
本願の実施形態は、情報を出力するための方法及び装置が提案されている。
第1の態様として、本願の実施形態は、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成するステップと、声紋特徴ベクトルを声紋認識モデルに入力して、ユーザーの身分情報を取得するステップと、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップと、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するステップと、を含む、情報を出力するための方法が提供されている。
幾つかの実施形態において、音声に基づいて声紋特徴ベクトルを生成するステップは、音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得するステップと、声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得するステップと、を含む。全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである。
幾つかの実施形態において、上述した方法は、マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するステップをさらに含み、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。
幾つかの実施形態において、上述した方法は、マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するステップをさらに含み、予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、再生回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。
幾つかの実施形態において、ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。
幾つかの実施形態において、上述した方法は、予め設定された音色情報の集合の中から、ユーザーの身分情報とマッチングする音色情報を選択するステップと、選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、ユーザーと音声インタラクションするステップをさらに含む。
幾つかの実施形態において、声紋認識モデルとは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。
第2の態様として、本願の実施形態は、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成するように構成されている生成ユニットと、声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、ユーザーの身分情報を取得するように構成されている認識ユニットと、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するように構成されているオプションユニットと、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するように構成されている出力ユニットとを含む、情報を出力するための装置が提供されている。声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。
幾つかの実施形態において、生成ユニットは、さらに、音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得し、声紋特徴スーパーベクトルを次元削減処理することによって声紋特徴ベクトルを取得するように構成されている。全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである。
幾つかの実施形態において、上述した装置は、音声が動作指示を含むと判定したことに応答して、動作指示が実行されるように構成されている実行ユニットをさらに含み、前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも1つを含む。
幾つかの実施形態において、上述した装置は、マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するように構成されている検索回数統計ユニットをさらに含み、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。
幾つかの実施形態において、上述した装置は、マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するように構成されている再生回数統計ユニットをさらに含み、予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。
幾つかの実施形態において、前記ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。
幾つかの実施形態において、上述した装置は、予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するように構成されているチューニングユニットをさらに含み、選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、ユーザーと音声インタラクションする。
幾つかの実施形態において、声紋認識モデルとは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのモデルである。
第3の態様として、本願の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置とを含み、前記1つまたは複数のプログラムは前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサに第1の態様においていずれかの方法を実現させる電子デバイスが提供されている。
第4の態様として、本願の実施形態は、コンピュータプログラムが格納されているコンピュータ読取可能な媒体が提供されている。前記プログラムはプロセッサにより実行されると、第1の態様においていずれかの方法を実現させる。
本願の実施形態によって提供される情報を出力するための方法及び装置は、音声によりユーザー身分情報を認識し、そして、ユーザー身分情報に従って、推奨待ちマルチメディアファイルを選択することによって、プレビュー情報を生成する。それにより、ターゲットを絞ったマルチメディアプレビュー情報を推奨することができる。
以下の図面による非限定的な実施形態についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。
本発明が適用される例示的なシステムアーキテクチャ図である。 本発明に係る情報を出力するための方法の一実施形態のフローチャートである。 本発明に係る情報を出力するための方法の適用シナリオの概略図である。 本発明に係る情報を出力するための方法の別の実施形態のフローチャートである。 本発明に係る情報を出力するための装置の一実施形態の概略構成図である。 本発明の一実施形態実現するのに適する電子デバイスのコンピュータシステムの概略構成図である。
以下、図面と実施形態を参照しながら、本願を詳細に説明する。ここで記載される具体的な実施形態は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。
なお、矛盾が生じない限り、本願における実施形態及び実施形態における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施形態を併せて本願を詳しく説明する。
図1には、本発明が適用される情報を出力するための方法または情報を出力するための装置の実施形態の例示的なシステムアーキテクチャ100を示す。
図1に示されたように、システムアーキテクチャ100は、スマートテレビ101とリモートコントローラ102を含んでも良い。スマートテレビ101には視聴者の音声を集音するためのマイクロフォン103が取り付けられている。リモートコントローラ102は、スマートテレビ101を遠隔操作するためのものである。それは、スマートテレビのチャンネル変換、や情報を出力するための機能などを実現することができる。ネットワークに接続した後、スマートテレビ101は、能提供ウェブブラウザ、フルHD3D体感型ゲーム、ビデオ通話、オンライン教育など様々なエンターテインメント、情報、および学習リソースを提供でき、そして無限に拡張でき、また、組織や個人、プロやアマチュアのソフトウェア愛好家を支援し、何万もの便利な機能的ソフトウェアを独自に開発し共有することもできる。そして、スマートテレビ101は、ネットワーク搜索、ネットワークテレビ、ビデオ・オン・デマンド、デジタル音楽、オンラインニュース、ネットワークビデオテレフォニーなどの様々なアプリケーションサービスを実現できる。ユーザーは、テレビのチャンネルやウェブサイトを検索したり、テレビ番組を録画したり、衛星放送・ケーブルテレビの番組やオンラインビデオを再生したりできる。
スマートテレビ101は、スマートフォンと同様に、完全にオープンなプラットフォームを有し、オペレーティングシステムを搭載し、そして、サードパーティのサービスプロバイダが提供するソフトウェアやゲームなどのプログラムをユーザーによりインストールおよびアンインストールすることによって、カラーテレビの機能を拡張し続ける。そして、ネットワークケーブルと無線ネットワークを通してインターネットをサーフィンすることができる。スマートテレビ101は、マイクロフォン103を介して視聴者の音声を集音し、視聴者の身分情報を認識することができる。よって、身分情報が異なるユーザーに向けて、パーソナライズされたサービスを提供する。
なお、本願の実施形態に係る情報を出力するための方法は、一般に、スマートテレビ101によって実行される。これに対応して、情報を出力するための装置は、一般的にスマートテレビ101に設置される。
さらに図2を参照すると、本発明に係る情報を出力するための方法的一実施形態的流れ200が示されている。該情報を出力するための方法は、以下のステップを含む。
ステップ201において、ユーザーによる音声の受信に応じて、音声に基づいて声紋特徴ベクトルを生成する。
本実施形態において、情報を出力するための方法の実行主体(例えば図1に示されたようなスマートテレビ)は、マイクロフォンを通してユーザーが音声入力した音声を受信することができる。音声は、遠隔コマンド(例えば、「電源オン」)を含んでもよく、遠隔コマンドを含まなくても良い。声紋は、周波数分析装置に表示された音声情報を運ぶ音波の周波数スペクトルである。現代の科学研究によると、声紋は特定性だけでなく、比較的安定性を示す特徴もある。声紋特徴ベクトルは、ユーザーの声紋の周波数スペクトルの特徴を識別するベクトルであってもよい。オーディオにおいて複数の音声がある場合に、複数の声紋特徴ベクトルを抽出することができる。なお、音声に基づいて声紋特徴ベクトルを生成することは、広く応用・研究されている公知技術であり、ここでは説明しない。
一例として、音声に基づいて声紋特徴ベクトルを生成することは、音声の典型的な特徴を抽出することによって達成することができる。具体的に、音の波長、周波数、強度、リズムなどの特徴がユーザーの音声の特点を反映することができるので、音声から声紋特徴を抽出するときに、音声の波長、周波数、強度、リズムなどの特徴を抽出し、音声の波長、周波数、強度、リズムなどの特徴の特徴量を声紋特徴ベクトルの要素として確定することができる。
一例として、音声に基づいて声紋特徴ベクトルを生成することは、音声の音響的特徴、例えば、メル周波数ケプストラム係数を抽出することによって達成することができる。メル周波数ケプストラム係数は、声紋特徴ベクトルの要素である。音声からメル周波数ケプストラム係数を抽出する工程は、プリエンファシス、フレーム分割、窓掛け、高速フーリエ変換、メルフィルタ、対数変換及び離散コサイン変換を含んでも良い。
ユーザーは、収集されたユーザーによる音声がテレビ番組の音声を含まないように、音声を入力する前に、スマートテレビをリモートコントローラによりミュートすることができる。或いは、所定の音声指示により、スマートテレビをミュートすることもできる。例えば、ユーザーが「消音」を口頭で入力することによって、スマートテレビをミュートすることができる。
本実施形態の一部の選択可能な実現手段において、上述した電子デバイスは、上述した音声を予め訓練された全体的な背景モデル(Universal Background Model、UBM)に導入してマッピングして、声紋特徴スーパーベクトル(即ち、ガウススーパーベクトル)を取得することができる。全体的な背景モデルは、通用背景モデルも呼ばれ、通用背景の特性を表すためのものである。全体的な背景モデルは、多くの詐称者の音声でEM(Expectation−Maximum、期待値最大化)法により訓練されて得られたものであり、UBMモデルの訓練は多くの話者によるものである。訓練された全体的な背景モデルに複数のガウス分布がある場合、個人のマルチフレーム音声特徴シーケンスが抽出されると、その個人の声紋特徴スーパーベクトルを計算することができる。実際に反映したいのは、その人の音響特性と全体的な背景モデルとの間の違い、すなわちその人の発音のユニークな個性である。このようにして、ユーザーの可変長スピーチは、最終的には、ユーザーの発話特性を反映する固定長声紋特徴スーパーベクトルにマッピングすることができる。
このような高次元声紋特徴スーパーベクトルは、個人的な発音の違いだけでなく、チャンネルによって引き起こされる違いも含む可能性がある。従って、何らかの監視下の次元削減法によって、このスーパーベクトルをさらに次元削減し、低次元ベクトルに削減する必要がある。上述した声紋特徴スーパーベクトルは、結合因子分析法(Joint Factor Analysis、JFA)により次元削減処理し、声紋特徴ベクトルを取得することができる。上述した結合因子分析法は、声紋認証法においてチャネルを補正する有効な法である。これは、話者空間とチャネル空間は独立であると仮定し、2つの低次元因子空間において記述することによって、チャネル因子を推定することができる。また、確率的線形判別分析法(Probabilistic Linear Discriminant Analysis、PLDA)により、上述した声紋スーパーベクトルを次元削減処理することによって声紋特徴ベクトルを取得する。上述した確率的線形判別分析法もチャネル補正法であり、確率的線形判別分析法(Linear Discriminant Analysis、LDA)である。また、上述した声紋特徴スーパーベクトルは、識別ベクトル(Identifying Vector、I−Vector)により次元削減処理して、声紋特徴ベクトルを取得することもできる。実際に、声紋の正確性を確保するために、全体的な背景モデルを訓練するとき、通常には、複数の音声を出す必要があり、そして、このような声紋特徴ベクトルを複数抽出し、ユーザーの声紋特徴ベクトルを記憶し、複数のユーザー声紋特徴ベクトルにより声紋ベースを構成することができる。
そして、上述した方法により、声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得することがきできる。多くの人々からの大量の音響特徴ベクトルを使用して、期待値最大化によって訓練によりガウス混合モデルを取得することができる。このモデルは、多くの人々の音声特性データの確率分布を表すものであり、すべての話者の共通性と理解すべき、ある話者の声紋モデルの特定の先験的モデルとみなすことができる。したがって、このガウス混合モデルはUBMモデルとも呼ばれる場合もある。全体的な背景モデルは、ディープニューラルネットワークを通じて構築することもできる。
また、声紋特徴ベクトルを生成する前に、先に音声を処理し、ノイズを除去することができる。例えば、特異値分解法またはフィルタ法により音声におけるノイズを除去する。ここでいうノイズは、音の大きさや音の強さが混乱して不快な音を含んでもよく、対象音の認識を妨げる背景音楽などのような音も含まれる。特異値分解(SVD、Singular Value Decomposition)は、線形代数における重要な行列分解であり、行列解析における正規行列対角化の普及である。信号処理や統計学などの分野で重要な用途がある。SVDに基づくノイズ除去技術は、サブ空間法の一つである。簡単に言えば、ノイズ付き信号ベクトル空間は、それぞれ純粋な信号によるものとノイズによるものとの2つのサブ空間に分解され、そして簡単に「ノイズ空間」にあるノイズ付き信号ベクトル分量を除去することによって、純粋な信号を推定することができる。また、オーディオファイルのノイズは、適応フィルタリングとカルマンフィルタリングによっても除去できる。通常に20〜50msの間隔でフレーム化され、そしていくつかの特徴抽出法(主に時間領域から周波数領域への変換)を通して、各フレームは固定長の音響特徴シーケンスにマッピングされることができる。
ステップ202において、声紋特徴ベクトルを声紋認識モデルに入力して、ユーザーの身分情報を取得する。
本実施形態において、声紋認識モデルは、市販のユーザー身分を認識するためのモデルである。また、声紋認識モデルは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すモデルであってもよい。ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。年齢は、特定の年齢層、例えば、4〜8歳、20〜30歳などであり得る。性別と年齢を合わせて、ユーザーの特定の身分情報を判断できる。例えば、子供、高齢者、成人女性、成年男性を識別することができる。家族メンバー標識は、事前に登録された家族メンバーを識別するためのものである。例えば、母、父、娘、祖母などである。家族に、年齢が近く、同じ性別のメンバーが一人しかいない場合、直接にユーザーの年齢と性別により家族メンバーを判断できる。例えば、家族メンバーには母、父、娘、祖母がいる場合に、年齢50〜60の女性は祖母であり、年齢4〜8の女性は娘である。声紋認識モデルは、声紋特徴ベクトルベースの声紋特徴ベクトルを所与のユーザーのカテゴリのうちの1つにマッピングすることによって、ユーザーのカテゴリの予測に適用可能な分類器を含んでもよい。年齢、性別、または年齢と性別の組み合わせによって分類できる。例えば、少女、成人男性、女性高齢者など。即ち、声紋特徴ベクトルを分類器に入力して、ユーザーのカテゴリを出力することができる。本実施形態で使用される分類器は、決定木、ロジスティック回帰、単純ベイズ、ニューラルネットワークなどを含むことができる。分類器は、単純な確率モデルの上に、最大の確率値を使用してデータを分類・予測する。分類器は、事前に訓練されたものである。大量の音声サンプルから声紋特徴ベクトルを抽出し、分類器を訓練する。分類器の構造と実施は、大体、以下のステップを含む。1、サンプル(ポジティブサンプルとネガティブサンプルを含む)を選定し、全てのサンプルを練サンプルとテストサンプルとの2つ部分に分ける。2、訓練サンプル実行分類器法に基づいて、分類器を生成する。3、テストサンプルを分類器に入力して、予測結果を生成する。4、予測結果に基づいて、必要な評価指標を計算し、分類器の性能を評価する。
例えば、大量の子供の音声をポジティブサンプルとして採集して、大量の成人の音声をネガティブサンプルとして採集する。ポジティブサンプルとネガティブサンプルによる分類器法に基づいて、分類器を生成する。また、予測結果が子供であるかどうかを検証するために、ポジティブサンプルとネガティブサンプルをそれぞれ分類器に入力して、予測結果を生成する。予測結果により、分類器の性能を評価する。
声紋認識モデルはさらに、家族メンバーマッピング表も含んでもよく。上述した家族メンバーマッピング表には、家族メンバー標識、性別、年齢の対応関係が記録されている。家族メンバーマッピング表において、分類器の分類結果を調べることによって、家族メンバー標識を判定することができる。例えば、分類器に出力された結果は、年齢50〜60の女性である場合、家族メンバーマッピング表によりこのユーザーの家族メンバー標識は、祖母であると判定された。
或いは、声紋認識モデルは声紋ベースであってもよい。声紋ベースは、声紋特徴ベクトルと識別情報との対応関係を表すためのものである。声紋特徴ベクトルを所定の声紋ベースに入力してマッチングし、そして一致度の高い順に第一の所定数の識別情報を選定して出力する。同一のユーザーの音声を複数集音して、ステップ201において、このユーザーの声紋特徴ベクトルを構築し、声紋特徴ベクトルと識別情報との対応関係を確立し、複数のユーザーの声紋特徴ベクトルと識別情報との対応関係を登録することにより、声紋ベースを構築する。上述した声紋特徴ベクトルと上述した声紋ベースとの一致度を計算するときに、マンハッタン距離(Manhattan Distance)により計算してもよく、ミンコフスキー距離(Minkowski Distance)により計算してもよく、コサイン類似度(Cosine Similarity)により計算してもよい。
ステップ203において、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択する。
本実施形態において、予め設定されたマルチメディアファイルの集合の中のマルチメディアファイルは事前に分類され、例えば、視聴者は18歳以上に限られている。例えば、アニメーション系のマルチメディアファイルは子供と合う。恐怖映画は、成人と合う。ターゲットマルチメディアファイルは、ユーザーに推薦まちマルチメディアファイルである。識別情報は子供であるときに、マルチメディアファイルの集合の中から、ターゲットマルチメディアファイルとして、アニメーション、子供の歌、科学および教育などの子供に合うマルチメディアファイルを選べる。
ステップ204において、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力する。
本実施形態において、ステップ203で選択された所定数のターゲットマルチメディアファイルをランダムにプレビュー情報に生成する。また、注文回数が大きい順にプレビュー情報を並べて生成して出力する。点播回数は、マルチメディアファイルが注文され度に、統計されたものである。プレビュー情報は、ビデオスクリーンショット、継続時間、プロフィール、ファイル識別などの情報を含んでもよく。ユーザーは、リモートコントローラを介してファイル標識により再生しようとするマルチメディアファイルを選択することができる。また、音声入力ファイル標識により、再生しようとするマルチメディアファイルを選択することができる。
本実施形態の一部の選択可能な実現手段において、上述した方法は、音声が動作指示を含むと判定したことに応答して、動作指示が実行されるステップをさらに含み、操作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも1つを含む。例えば、ユーザーは、音声で「中央5に変更する」、「大きく聞こえる」、「輝度を増す」、「トムクルーズの映画を検索する」、「1号(プレビュー情報中のマルチメディアファイル標識)を再生する」などの操作指示を入力することができる。
本実施形態の一部の選択可能な実現手段において、上述した方法は、マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するステップをさらに含む。予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。例えば、映画Aが100回検索され、映画Bは200回検索される場合、映画Bを選択してプレビューファイルを生成することができ、あるいは、映画Bのプレビュー情報を映画Aのプレビュー情報の前に表示する。
本実施形態の一部の選択可能な実現手段において、上述した方法は、マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するステップをさらに含む。予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。例えば、映画Aが100回生成され、映画Bが200回生成される場合、映画Bを選択してプレビューファイルを生成することができ、あるいは、映画Bのプレビュー情報を映画Aのプレビュー情報の前に表示する。
さらに図3を参照すると、図3は、本実施形態に係る情報を出力するための方法の適用シナリオの概略図である。図3の適用シナリオに、スマートテレビはマイクロフォンにより集音し(301)、子供による音声「テレビを見る」を受信する。そして、音声により、声紋を抽出し(302)、声紋特徴ベクトルを生成する。また、声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、声紋を認識する(303)ことによって、ユーザーの身分情報を取得する304(子供)。また、ユーザーの身分情報により、プレビューを推薦する(305)、プレビュー情報(1、アニメーションA;2、動物の世界;3、科学探索を含む)を取得する(306)。
本願の上述した実施形態に係る方法は、音声によりユーザーの身分を認識することによって、ターゲットを絞ったマルチメディアプレビュー情報を推奨することができる
さらに図4を参照すると、情報を出力するための方法の別の実施形態の流れ400を示す。該情報を出力するための方法の流れ400は、以下のステップを含む。
ステップ401において、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成する。
ステップ402において、声紋特徴ベクトルを声紋認識モデルに入力して、ユーザーの身分情報を取得する。
ステップ403において、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択する。
ステップ404において、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力する。
ステップ401−404は、ステップ201−204と基本的に同じてあり、ここでは説明しない。
ステップ405において、予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択する。
本実施形態において、スマートテレビは、ユーザーが選択するための複数の音色を提供することができる。そして、音声による指示により選択してもよく、リモートコントローラにより選択してもよい。また、ユーザーの身分情報によれば、自動的にユーザーの身分情報とマッチングする音色情報を選択することも可能である。例えば、子供に向けて、アニメキャラクターの音色を選択することが可能であり、例えば、シーヤンヤン、光頭強、ペッパピッグなど。人に向けて、スターA、スターBの音色などを提供することが可能である。マルチメディアファイルの再生回数により、具体的な音色を確定する。例えば、《シーヤンヤンとホイタイラン》の再生回数が最も多いので、シーヤンヤンの音色を選択することができる。
ステップ406において、選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、ユーザーと音声インタラクションする。
本実施形態において、ステップ405で選択された音色により音声インタラクション情報を出力することによって、ユーザーと音声インタラクションする。楽しさを向上させることができる。例えば、子供が音声で「『シーヤンヤンとホイタイラン』を見たい」を入力した。スマートテレビは、シーヤンヤンの音色で「何回目を見たい?」を聞いてもよい。
図4から分かるように、図2の実施形態と比較して、本実施形態に係る情報を出力するための方法の流れ400は、音色を選択するステップを強調した。これにより、本実施形態で説明された形態は、異なるユーザー群に向けて異なる音色で音声インタラクションすることができる。よって、ユーザーとスマートテレビとのインタラクションの楽しさを高めることができる。
さらに図5を参照すると、各図に示される方法の実現として、本発明は、情報を出力するための装置の一実施形態を提供し、この装置実施形態の実施形態は、図2に示される方法の実施形態に対応し、この装置は、具体的に様々な電子デバイスに適用することができる。
図5に示されたように、本実施形態に係る情報を出力するための装置500は、生成ユニット501、認識ユニット502、オプションユニット503、出力ユニット504を含む。この生成ユニット501は、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成するように構成されている。認識ユニット502は、声紋特徴ベクトルを声紋認識モデルに入力することによって、ユーザーの身分情報を取得するように構成されている。オプションユニット503は、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するように構成されている。出力ユニット504は、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するように構成されている。
本実施形態において、情報を出力するための装置500における生成ユニット501、認識ユニット502、オプションユニット503、出力ユニット504の具体的な処理については、図2と対応する実施形態のステップ201、ステップ202、ステップ203、ステップ204を参照することができる。
本実施形態の一部の選択可能な実現手段において、生成ユニット501は、さらに、音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得するように配置されている。全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである。声紋特徴スーパーベクトルは、次元削減処理によって、声紋特徴ベクトルを取得する。
本実施形態の一部の選択可能な実現手段において、上述した装置500は、音声が動作指示を含むと判定したことに応答して、動作指示が実行されるように構成されている実行ユニット(図示せず)をさらに含み、前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも1つを含む。
本実施形態の一部の選択可能な実現手段において、上述した装置500は、マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するように構成されている検索回数統計ユニットをさらに含む。予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。
本実施形態の一部の選択可能な実現手段において、上述した装置500は、マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するように構成されている再生回数統計ユニットをさらに含む。予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む。
本実施形態の一部の選択可能な実現手段において、ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。
本実施形態の一部の選択可能な実現手段において、装置500は、予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するように構成されているチューニングユニットをさらに含む。選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、ユーザーと音声インタラクションする。
本実施形態の一部の選択可能な実現手段において、声紋認識モデルとは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのモデルである。
以下、図6を参照すると、本発明の一実施形態実現するのに適する電子デバイス(図1に示されたようなスマートテレビ)のコンピュータシステム600の概略構成図を示す。図6に示す電子デバイスは、あくまでも一例であり、本発明の本実施形態の機能及び利用範囲を限定するものではない。
図6に示す通り,コンピュータシステム600は、読み出し専用メモリ(ROM、Read Only Memory)602に記憶されているプログラム又は記憶部608からランダムアクセスメモリ(RAM、Random Access Memory)603にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU、Central Processing Unit)601を備える。RAM603には、システム600の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU601、ROM602およびRAM603は、バス604を介して互いに接続されている。入力/出力(I/O、Input / Output)インターフェース605もバス604に接続されている。
I/Oインターフェース605には、リモートコントローラ、マイクロフォン等からなる入力部606と、陰極線管(CRT)、液晶表示装置(LCD)、スピーカ等からなる出力部607と、ハードディスク等からなる記憶部608と、LANカードやモデム等のネットワークインターフェースカードからなる通信部609とを備えている。通信部609は、インターネットなどのネットワークを介した通信処理を行う。ドライブ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライブ610に取り付けられるので、ドライブ610から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
特に、本発明の実施形態によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムで実施することができる。例えば、本発明の一実施形態は、機械可読媒体に有形に埋め込まれたコンピュータプログラムを含むコンピュータプログラム製品を含む。コンピュータプログラムは、フローチャートに示されるような方法を実行するためのプログラムコードを含む。このような実施形態において、このコンピュータプログラムは、通信部609を介してネットワークからダウンロードされインストールされてもよく、リムーバブルメディア611からインストールされてもよい。このコンピュータプログラムが中央処理装置(CPU)601によって実行されると、本発明の方法によって定義される上記機能を実現する。なお、本発明のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは上記両者の任意の組み合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子、磁気記憶素子、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は上記任意の適当の組み合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。
一つ又は複数種のプログラミング言語又はそれらの組み合わせで本出願の操作を実行するためのコンピュータプログラムコードをプログラミングすることができる。上記プログラミング言語には、Java(登録商標)、Smalltalk、C++のようなオブジェクト指向プログラミング言語が含まれ、更にC言語又は類似のプログラミング言語のような通常の手続き型プログラミング言語が含まれる。プログラムコードは、全体がユーザコンピュータに実行されても良く、一部がユーザコンピュータに実行されても良く、一つの独立なパッケージとして実行されても良く、一部がユーザコンピュータに実行され且つ一部がリモートコンピュータに実行されても良く、或いは全体がリモートコンピュータ又はサーバに実行されても良い。リモートコンピュータに関する場合に、リモートコンピュータはローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークによりユーザコンピュータに接続されても良く、或いは外部のコンピュータ(例えばインターネットサービスプロバイダを利用してインターネットにより接続する)に接続されても良い。
図面におけるフローチャート及びブロック図は、本願の各実施形態によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って確定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。
本発明の実施形態に説明されたユニットはソフトウェアのユニットで実現されても良く、ハードウェアのユニットで実現されても良い。説明されたユニットは、プロセッサに設置されても良い。例えば、生成ユニット、認識ユニット、オプションユニット、および出力ユニットを含むプロセッサとして記載されても良い。なお、これらユニットの名称は、ある場合に当該ユニットの自身に対する限定とされない。例えば、生成ユニットを「ユーザーによる音声の受信に応答して、前記音声に基づいて、声紋特徴ベクトルを生成するユニットである」と記載されても良い。
別の形態として、本発明は更にコンピュータ読取可能な媒体を提供した。当該コンピュータ読取可能な媒体は、上記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。上記コンピュータ読取可能な媒体に一つ又は複数のプログラムがロードされる。上記一つ又は複数のプログラムが当該装置により実行されると、装置は、ユーザーによる音声の受信に応答して、音声に基づいて声紋特徴ベクトルを生成し、声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、ユーザーの身分情報を取得し、声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものであり、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択し、ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力する。
以上の記載は、本願の好ましい実施形態、及び使われている技術的原理の説明に過ぎない。当業者は、本願に係る保護範囲が、上記の技術特徴による特定お組合せからなる技術方案に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、上記技術特徴又は均等の特徴の任意の組合せからなる他の技術方案も含まれることを理解している。例えば、上記特徴と、本願に開示された類似の機能を持っている技術特徴(これらに限定されていない)とを互いに置き換えてなる技術方案も含まれる。

Claims (16)

  1. 情報を出力するための方法であって、
    ユーザーによる音声の受信に応答して、前記音声に基づいて声紋特徴ベクトルを生成するステップと、
    前記声紋特徴ベクトルを声紋認識モデルに入力して、前記ユーザーの身分情報を取得するステップであって、前記ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含むステップと、
    予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップと、
    前記ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するステップと、を含み、
    前記声紋認識モデルは、家族メンバー標識、性別、年齢の対応関係が記録されている家族メンバーマッピング表と、ユーザの声紋特徴ベクトルを入力として当該ユーザの性別及び年齢のうちの少なくとも1つを出力する分類器とを有し、
    分類器により出力された結果で前記家族メンバーマッピングにおいて検索することにより前記家族メンバー標識が得られる、方法。
  2. 前記音声に基づいて声紋特徴ベクトルを生成するステップは、
    前記音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得するステップであって、前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものであるステップと、
    前記声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得するステップと、
    を含む、請求項1に記載の方法。
  3. 前記音声が動作指示を含むと判定したことに応答して、前記動作指示を実行するステップをさらに含み、
    前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも1つを含む、請求項1に記載の方法。
  4. マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するステップをさらに含み、
    前記予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、
    検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項3に記載の方法。
  5. マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するステップをさらに含み、
    前記予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、
    再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項3に記載の方法。
  6. 予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するステップと、
    選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、前記ユーザーと音声インタラクションするステップと、をさらに含む請求項1〜のいずれか一項に記載の方法。
  7. 前記声紋認識モデルとは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである、請求項1〜のいずれか一項に記載の方法。
  8. 情報を出力するための装置であって、
    ユーザーによる音声の受信に応答して、前記音声に基づいて声紋特徴ベクトルを生成するように構成されている生成ユニットと、
    前記声紋特徴ベクトルを声紋認識モデルに入力して、前記ユーザーの身分情報を取得するように構成されている認識ユニットであって、前記ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含むユニットと、
    予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するように構成されているオプションユニットと、
    前記ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するように構成されている出力ユニットと、を含み、
    前記声紋認識モデルは、家族メンバー標識、性別、年齢の対応関係が記録されている家族メンバーマッピング表と、ユーザの声紋特徴ベクトルを入力として当該ユーザの性別及び年齢のうちの少なくとも1つを出力する分類器とを有し、
    分類器により出力された結果で前記家族メンバーマッピングにおいて検索することにより前記家族メンバー標識が得られる、装置。
  9. 前記生成ユニットは、さらに、
    前記音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得し、
    前記声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得するように構成され、
    前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである、請求項に記載の装置。
  10. 前記音声が動作指示を含むと判定したことに応答して、前記動作指示が実行されるように構成されている実行ユニットをさらに含み、前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも1つを含む、請求項に記載の装置。
  11. マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するように構成されている検索回数統計ユニットをさらに含み、
    前記予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、
    検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項10に記載の装置。
  12. 前記装置は、
    マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するように構成されている再生回数統計ユニットをさらに含み、
    前記予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、
    再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項10に記載の装置。
  13. 予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するように構成されているチューニングユニットをさらに含み、
    選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、前記ユーザーと音声インタラクションする、請求項12のいずれか一項に記載の装置。
  14. 前記声紋認識モデルとは、予め訓練された、前記声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのモデルである請求項12のいずれか一項に記載の装置。
  15. 電子デバイスであって、
    1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが格納されている記憶装置と、を含み、
    前記1つまたは複数のプログラムは前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサに請求項1〜のいずれか一項に記載の方法を実現させる電子デバイス。
  16. コンピュータプログラムが格納されているコンピュータ読取可能な媒体であって、
    前記プログラムはプロセッサにより実行されると、請求項1〜のいずれか一項に記載の方法を実現させるコンピュータ読取可能な媒体。
JP2019047116A 2018-06-08 2019-03-14 情報を出力するための方法、及び装置 Active JP6855527B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810587827.5A CN108737872A (zh) 2018-06-08 2018-06-08 用于输出信息的方法和装置
CN201810587827.5 2018-06-08

Publications (2)

Publication Number Publication Date
JP2019216408A JP2019216408A (ja) 2019-12-19
JP6855527B2 true JP6855527B2 (ja) 2021-04-07

Family

ID=63932905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019047116A Active JP6855527B2 (ja) 2018-06-08 2019-03-14 情報を出力するための方法、及び装置

Country Status (3)

Country Link
US (1) US11006179B2 (ja)
JP (1) JP6855527B2 (ja)
CN (1) CN108737872A (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109700113A (zh) * 2018-11-30 2019-05-03 迅捷安消防及救援科技(深圳)有限公司 智能头盔、消防救援方法及相关产品
CN109739354B (zh) * 2018-12-28 2022-08-05 广州励丰文化科技股份有限公司 一种基于声音的多媒体交互方法及装置
CN109785859B (zh) * 2019-01-31 2024-02-02 平安科技(深圳)有限公司 基于语音分析的管理音乐的方法、装置和计算机设备
CN109961793B (zh) * 2019-02-20 2021-04-27 北京小米移动软件有限公司 处理语音信息的方法及装置
CN111599342A (zh) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 音色选择方法和选择系统
CN111627417B (zh) * 2019-02-26 2023-08-08 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111798857A (zh) * 2019-04-08 2020-10-20 北京嘀嘀无限科技发展有限公司 一种信息识别方法、装置、电子设备及存储介质
CN109994117A (zh) * 2019-04-09 2019-07-09 昆山古鳌电子机械有限公司 一种电子签名系统
CN110659412A (zh) * 2019-08-30 2020-01-07 三星电子(中国)研发中心 用于在电子设备中提供个性化服务的方法和设备
CN110909243A (zh) * 2019-11-27 2020-03-24 南京创维信息技术研究院有限公司 电视端内容推荐方法及装置
CN111061907B (zh) * 2019-12-10 2023-06-20 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及存储介质
CN111192587A (zh) * 2019-12-27 2020-05-22 拉克诺德(深圳)科技有限公司 语音数据匹配方法、装置、计算机设备及存储介质
CN111081249A (zh) * 2019-12-30 2020-04-28 腾讯科技(深圳)有限公司 一种模式选择方法、装置及计算机可读存储介质
CN113495976A (zh) * 2020-04-03 2021-10-12 百度在线网络技术(北京)有限公司 内容显示方法、装置、设备以及存储介质
CN111641875A (zh) * 2020-05-21 2020-09-08 广州欢网科技有限责任公司 一种智能电视分析家庭成员的方法、装置和系统
CN111599353A (zh) * 2020-06-04 2020-08-28 北京如影智能科技有限公司 基于语音的设备控制方法及装置
CN111785246B (zh) * 2020-06-30 2024-06-18 联想(北京)有限公司 虚拟角色语音处理方法、装置及计算机设备
CN111862947A (zh) * 2020-06-30 2020-10-30 百度在线网络技术(北京)有限公司 用于控制智能设备的方法、装置、电子设备和计算机存储介质
CN112002317B (zh) * 2020-07-31 2023-11-14 北京小米松果电子有限公司 语音输出方法、装置、存储介质和电子设备
CN112148900A (zh) * 2020-09-14 2020-12-29 联想(北京)有限公司 一种多媒体文件的显示方法及装置
CN112185344A (zh) * 2020-09-27 2021-01-05 北京捷通华声科技股份有限公司 语音交互方法、装置、计算机可读存储介质和处理器
CN112423063A (zh) * 2020-11-03 2021-02-26 深圳Tcl新技术有限公司 一种智能电视自动设置方法、装置及存储介质
CN112614478B (zh) * 2020-11-24 2021-08-24 北京百度网讯科技有限公司 音频训练数据处理方法、装置、设备以及存储介质
CN114630171A (zh) * 2020-12-11 2022-06-14 海信视像科技股份有限公司 显示设备以及配置切换方法
CN112954377B (zh) * 2021-02-04 2023-07-28 广州繁星互娱信息科技有限公司 直播对战画面显示方法、直播对战方法及装置
KR20220130362A (ko) * 2021-03-18 2022-09-27 삼성전자주식회사 전자 장치 및 전자 장치에서 컨텐츠의 태그 정보를 저장하는 방법
CN114339342A (zh) * 2021-12-23 2022-04-12 歌尔科技有限公司 一种遥控器控制方法、遥控器、控制装置及介质
CN115831152B (zh) * 2022-11-28 2023-07-04 国网山东省电力公司应急管理中心 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法
CN116055818A (zh) * 2022-12-22 2023-05-02 北京奇艺世纪科技有限公司 视频播放方法、装置、电子设备及存储介质

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
JP4432246B2 (ja) * 2000-09-29 2010-03-17 ソニー株式会社 観客状況判定装置、再生出力制御システム、観客状況判定方法、再生出力制御方法、記録媒体
US20120240045A1 (en) * 2003-08-08 2012-09-20 Bradley Nathaniel T System and method for audio content management
US7499104B2 (en) * 2003-05-16 2009-03-03 Pixel Instruments Corporation Method and apparatus for determining relative timing of image and associated information
JP3938104B2 (ja) * 2003-06-19 2007-06-27 ヤマハ株式会社 アルペジオパターン設定装置およびプログラム
JP2005157894A (ja) 2003-11-27 2005-06-16 Sony Corp 情報処理装置、利用環境提供方法及び利用環境提供プログラム
US20050289582A1 (en) * 2004-06-24 2005-12-29 Hitachi, Ltd. System and method for capturing and using biometrics to review a product, service, creative work or thing
US8036361B2 (en) * 2004-12-17 2011-10-11 Alcatel Lucent Selection of ringback tone indicative of emotional state that is input by user of called communication device
US20060229505A1 (en) * 2005-04-08 2006-10-12 Mundt James C Method and system for facilitating respondent identification with experiential scaling anchors to improve self-evaluation of clinical treatment efficacy
US20060287912A1 (en) * 2005-06-17 2006-12-21 Vinayak Raghuvamshi Presenting advertising content
US20100153885A1 (en) * 2005-12-29 2010-06-17 Rovi Technologies Corporation Systems and methods for interacting with advanced displays provided by an interactive media guidance application
US8374874B2 (en) * 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US20080260212A1 (en) * 2007-01-12 2008-10-23 Moskal Michael D System for indicating deceit and verity
WO2009067670A1 (en) * 2007-11-21 2009-05-28 Gesturetek, Inc. Media preferences
US9986293B2 (en) * 2007-11-21 2018-05-29 Qualcomm Incorporated Device access control
KR101644421B1 (ko) * 2008-12-23 2016-08-03 삼성전자주식회사 사용자의 관심 정도에 기반한 컨텐츠 제공장치 및 방법
US9014546B2 (en) * 2009-09-23 2015-04-21 Rovi Guides, Inc. Systems and methods for automatically detecting users within detection regions of media devices
KR101636716B1 (ko) * 2009-12-24 2016-07-06 삼성전자주식회사 발언자를 구별하는 영상 회의 장치 및 방법
JP5190560B2 (ja) * 2010-05-28 2013-04-24 楽天株式会社 コンテンツ出力装置、コンテンツ出力方法、コンテンツ出力プログラム、及びコンテンツ出力プログラムが記録された記録媒体
JP5542536B2 (ja) 2010-06-15 2014-07-09 株式会社Nttドコモ 情報処理装置及びダウンロード制御方法
US8959648B2 (en) * 2010-10-01 2015-02-17 Disney Enterprises, Inc. Audio challenge for providing human response verification
JP5841538B2 (ja) * 2011-02-04 2016-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 関心度推定装置および関心度推定方法
WO2013018267A1 (ja) * 2011-07-29 2013-02-07 パナソニック株式会社 提示制御装置、及び提示制御方法
US20130173765A1 (en) * 2011-12-29 2013-07-04 United Video Properties, Inc. Systems and methods for assigning roles between user devices
US20130205314A1 (en) * 2012-02-07 2013-08-08 Arun Ramaswamy Methods and apparatus to select media based on engagement levels
JP6028351B2 (ja) * 2012-03-16 2016-11-16 ソニー株式会社 制御装置、電子機器、制御方法、及びプログラム
CA2775700C (en) * 2012-05-04 2013-07-23 Microsoft Corporation Determining a future portion of a currently presented media program
US9699485B2 (en) * 2012-08-31 2017-07-04 Facebook, Inc. Sharing television and video programming through social networking
US9398335B2 (en) * 2012-11-29 2016-07-19 Qualcomm Incorporated Methods and apparatus for using user engagement to provide content presentation
US9996150B2 (en) * 2012-12-19 2018-06-12 Qualcomm Incorporated Enabling augmented reality using eye gaze tracking
US20140195918A1 (en) * 2013-01-07 2014-07-10 Steven Friedlander Eye tracking user interface
US10031637B2 (en) * 2013-01-25 2018-07-24 Lg Electronics Inc. Image display apparatus and method for operating the same
WO2014138352A1 (en) * 2013-03-06 2014-09-12 Zito Arthur J Jr Multi-media presentation system
US20160293167A1 (en) * 2013-10-10 2016-10-06 Google Inc. Speaker recognition using neural networks
US9401148B2 (en) * 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
US9516259B2 (en) * 2013-10-22 2016-12-06 Google Inc. Capturing media content in accordance with a viewer expression
US20150244747A1 (en) * 2014-02-26 2015-08-27 United Video Properties, Inc. Methods and systems for sharing holographic content
KR20150108028A (ko) * 2014-03-16 2015-09-24 삼성전자주식회사 컨텐츠의 재생 제어 방법 및 이를 수행하기 위한 컨텐츠 재생 장치
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US9542948B2 (en) * 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
JP6208631B2 (ja) 2014-07-04 2017-10-04 日本電信電話株式会社 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
US10390064B2 (en) * 2015-06-30 2019-08-20 Amazon Technologies, Inc. Participant rewards in a spectating system
US9988055B1 (en) * 2015-09-02 2018-06-05 State Farm Mutual Automobile Insurance Company Vehicle occupant monitoring using infrared imaging
US10062100B2 (en) * 2015-09-24 2018-08-28 Adobe Systems Incorporated Methods and systems for identifying visitors to real-world shopping venues as belonging to a group
US9787940B2 (en) * 2015-10-05 2017-10-10 Mutualink, Inc. Video management defined embedded voice communication groups
CN105979376A (zh) * 2015-12-02 2016-09-28 乐视致新电子科技(天津)有限公司 一种推荐方法和装置
WO2017119604A1 (ko) * 2016-01-08 2017-07-13 주식회사 아이플래테아 시청률 산출 서버, 시청률 산출 방법, 및 시청률 산출 리모트 장치
US10685383B2 (en) * 2016-02-05 2020-06-16 Adobe Inc. Personalizing experiences for visitors to real-world venues
US10217261B2 (en) * 2016-02-18 2019-02-26 Pinscreen, Inc. Deep learning-based facial animation for head-mounted display
JP6721365B2 (ja) 2016-03-11 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム
CN105959806A (zh) 2016-05-25 2016-09-21 乐视控股(北京)有限公司 节目推荐方法及装置
US10152969B2 (en) * 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
GB2555192B (en) * 2016-08-02 2021-11-24 Invincea Inc Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
US20180075763A1 (en) * 2016-09-15 2018-03-15 S. Lynne Wainfan System and method of generating recommendations to alleviate loneliness
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
US10163003B2 (en) * 2016-12-28 2018-12-25 Adobe Systems Incorporated Recognizing combinations of body shape, pose, and clothing in three-dimensional input images
US20180189647A1 (en) * 2016-12-29 2018-07-05 Google, Inc. Machine-learned virtual sensor model for multiple sensors
US20180225083A1 (en) * 2017-02-03 2018-08-09 Scratchvox Inc. Methods, systems, and computer-readable storage media for enabling flexible sound generation/modifying utilities
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
US10642830B2 (en) * 2017-06-12 2020-05-05 Google Llc Context aware chat history assistance using machine-learned models
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
US10579401B2 (en) * 2017-06-21 2020-03-03 Rovi Guides, Inc. Systems and methods for providing a virtual assistant to accommodate different sentiments among a group of users by correlating or prioritizing causes of the different sentiments
CN107507612B (zh) * 2017-06-30 2020-08-28 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
US11159856B2 (en) * 2017-07-10 2021-10-26 Sony Interactive Entertainment LLC Non-linear content presentation and experience
US10904615B2 (en) * 2017-09-07 2021-01-26 International Business Machines Corporation Accessing and analyzing data to select an optimal line-of-sight and determine how media content is distributed and displayed
CN107623614B (zh) * 2017-09-19 2020-12-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107767869B (zh) * 2017-09-26 2021-03-12 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
US10452958B2 (en) * 2017-10-06 2019-10-22 Mitsubishi Electric Research Laboratories, Inc. System and method for image comparison based on hyperplanes similarity
CN107659849A (zh) * 2017-11-03 2018-02-02 中广热点云科技有限公司 一种推荐节目的方法及系统
US10425247B2 (en) * 2017-12-12 2019-09-24 Rovi Guides, Inc. Systems and methods for modifying playback of a media asset in response to a verbal command unrelated to playback of the media asset
US10664999B2 (en) * 2018-02-15 2020-05-26 Adobe Inc. Saliency prediction for a mobile user interface
US11210375B2 (en) * 2018-03-07 2021-12-28 Private Identity Llc Systems and methods for biometric processing with liveness

Also Published As

Publication number Publication date
JP2019216408A (ja) 2019-12-19
CN108737872A (zh) 2018-11-02
US20190379941A1 (en) 2019-12-12
US11006179B2 (en) 2021-05-11

Similar Documents

Publication Publication Date Title
JP6855527B2 (ja) 情報を出力するための方法、及び装置
JP2019212288A (ja) 情報を出力するための方法、及び装置
JP6876752B2 (ja) 応答方法及び装置
US20200126566A1 (en) Method and apparatus for voice interaction
US7349848B2 (en) Communication apparatus and system acting on speaker voices
US20170140260A1 (en) Content filtering with convolutional neural networks
CN103943104A (zh) 一种语音信息识别的方法及终端设备
CN109582825B (zh) 用于生成信息的方法和装置
JP2020004381A (ja) 情報プッシュ方法及び装置
JP7453712B2 (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
CN113691909B (zh) 具有音频处理推荐的数字音频工作站
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN112102846A (zh) 音频处理方法、装置、电子设备以及存储介质
CN111428078B (zh) 音频指纹编码方法、装置、计算机设备及存储介质
CN113573161A (zh) 多媒体数据处理方法、装置、设备及存储介质
CN111147871B (zh) 直播间歌唱识别方法、装置及服务器、存储介质
CN111816170A (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN111883139A (zh) 用于筛选目标语音的方法、装置、设备和介质
CN108322770A (zh) 视频节目识别方法、相关装置、设备和系统
CN111081249A (zh) 一种模式选择方法、装置及计算机可读存储介质
CN113707183A (zh) 一种视频中的音频处理方法及装置
US20230260527A1 (en) Audio data processing method and apparatus, device, and medium
CN111859008A (zh) 一种推荐音乐的方法及终端
CN111916074A (zh) 一种跨设备语音控制方法、系统、终端及存储介质
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210317

R150 Certificate of patent or registration of utility model

Ref document number: 6855527

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250