JP2019212288A - 情報を出力するための方法、及び装置 - Google Patents

情報を出力するための方法、及び装置 Download PDF

Info

Publication number
JP2019212288A
JP2019212288A JP2019047123A JP2019047123A JP2019212288A JP 2019212288 A JP2019212288 A JP 2019212288A JP 2019047123 A JP2019047123 A JP 2019047123A JP 2019047123 A JP2019047123 A JP 2019047123A JP 2019212288 A JP2019212288 A JP 2019212288A
Authority
JP
Japan
Prior art keywords
user
identity information
voiceprint feature
information
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019047123A
Other languages
English (en)
Inventor
ホウ,ツァイポン
Zaipeng Hou
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2019212288A publication Critical patent/JP2019212288A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4753End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】異なるタイプのスマートテレビユーザーに向けてパーソナライズされた操作オプションページを提供する【解決手段】第一のユーザーが入力したターゲットユーザーモードに入る要求を示すメッセージを受信するステップと、第一のユーザーの身分情報を判定するステップとターゲットユーザーモードが第一のユーザーの身分情報にマッチングするかどうかを判定するステップと、を含み、マッチングが成立した場合、予め設定された操作オプションページの集合から、前記ターゲットユーザーモードにマッチングする操作オプションページを選択して出力する【選択図】図2

Description

本願の実施形態は、スマートテレビの技術分野に関し、具体的に、情報を出力するための方法、及び装置に関する。
スマートテレビは、私たちの生活の中で広く使われてきたが、伝統的な番組視聴機能に限られていない。現在、人気テレビアプリケーション市場には、テレビ実況中継、ビデオ・オン・デマンド、株式金融、健康生活、システム最適化ツール等にかけて、何百も何千もテレビアプリケーションをユーザーに提供している。
従来技術において、スマートテレビは多くの機能を有し、異なるユーザー群に向けて同じ複雑な操作インターフェースを提示する。
本願の実施形態は、情報を出力するための方法及び装置が提案されている。
第1の態様として、本願の実施形態は、第一のユーザーが入力したターゲットユーザーモードに入る要求を示すメッセージを受信するステップと、前記第一のユーザーの身分情報を判定するステップと、前記ターゲットユーザーモードは前記第一のユーザーの身分情報にマッチングするかどうかを判定するステップと、を含み、マッチングが成立した場合、予め設定された操作オプションページの集合から、前記ターゲットユーザーモードにマッチングする操作オプションページを選択して出力する、情報を出力するための方法が提供されている。
幾つかの実施例において、上述した方法は、マッチングが成立しない場合、予め設定された操作オプションページの集合から前記第一のユーザーの身分情報にマッチングするユーザーモードマッチングの操作オプションページを選択して出力するステップをさらに含む。
幾つかの実施例において、前記第一のユーザーの身分情報を判定するステップは、前記第一のユーザーの第一の音声を受信したことに応答して、前記第一の音声に基づいて、第一の声紋特徴ベクトルを生成するステップと、前記第一の声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、前記第一のユーザーの身分情報と取得するステップとを含み、前記声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。
幾つかの実施例において、前記第一のユーザーの身分情報を判定するステップは、ユーザーの識別情報を確認するための質問を出力するステップと、前記第一のユーザーによる返信情報を受信したことに応答して、所定の回答の集合に前記返信情報にマッチングする答えがあるかどうかを判定し、その答えは、ユーザー身分情報と対応し、答えがある場合、前記した前記返信情報にマッチングする回答と対応するユーザー身分情報は、前記第一のユーザーの身分情報と判定した。
幾つかの実施例において、前記した前記第一の音声に基づいて第一の声紋特徴ベクトルを生成するステップは、前記第一の音声を予め訓練された全体的な背景モデルに導入してマッピングして、第一の声紋特徴スーパーベクトルを取得するステップと、前記第一の声紋特徴スーパーベクトルを次元削減処理することによって第一の声紋特徴ベクトルを取得するステップを含み、前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである。
幾つかの実施例において、上述した方法は、前記第一のユーザーの身分情報により前記第一のユーザーが所定の人組に属すると判定したことに応答して、前記第一のユーザーの身分情報を判定した時点を前記第一のユーザーの視聴開始時刻として記録するステップと、現在時刻と前記第一のユーザーの視聴開始時刻の差は、前記所定の人組の視聴時間閾値より長い、及び/又は現在時刻が所定の時間期間内にあると判定したことに応答して、時刻喚起情報の出力及び/又はシャットダウン操作を実行するステップ、をさらに含む。
幾つかの実施例において、身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。
幾つかの実施例において、上述した方法は、第二のユーザーの第二の音声を受信したことに応答して、前記第二の音声に基づいて、第二の声紋特徴ベクトルを生成するステップと、前記第二の声紋特徴ベクトルを声紋認識モデルに入力して、前記第二のユーザーの身分情報を取得するステップと、前記第一のユーザーと前記第二のユーザーから最年少のユーザーを特定して出力し、かつ、予め設定された操作オプションページの集合から、前記最年少のユーザーと対応するユーザーモードマッチングの操作オプションページを選択して出力するステップをさらに含み、前記声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。
第2の態様として、本願の実施形態は、第一のユーザーが入力したターゲットユーザーモードに入る要求を示すメッセージを受信するように構成されている受信ユニットと、前記第一のユーザーの身分情報を判定するように構成されている判定ユニットと、前記ターゲットユーザーモードは前記第一のユーザーの身分情報にマッチングするかどうかを判定するように構成されているマッチングユニットと、マッチングが成立した場合、予め設定された操作オプションページの集合から、前記ターゲットユーザーモードにマッチングする操作オプションページを選択して出力するように構成されている出力ユニットと、を含む、情報を出力するための装置が提供されている。
幾つかの実施例において、出力ユニットは、さらに、マッチングが成立しない場合、予め設定された操作オプションページの集合から、前記第一のユーザーの身分情報にマッチングするユーザーモードマッチングの操作オプションページを選択して出力するように構成されている。
幾つかの実施例において、判定ユニットは、さらに、前記第一のユーザーの第一の音声を受信したことに応答して、前記第一の音声に基づいて、第一の声紋特徴ベクトルを生成し、前記第一の声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、前記第一のユーザーの身分情報を取得するように構成され、前記声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。
幾つかの実施例において、前記第一のユーザーの身分情報を判定することは、ユーザーの識別情報を確認するための質問を出力することと、前記第一のユーザーによる返信情報を受信したことに応答して、所定の回答の集合に前記返信情報にマッチングする答えがあるかどうかを判定することを含み、その答えは、ユーザー身分情報と対応し、答えがある場合、前記返信情報にマッチングする回答と対応するユーザー身分情報は、前記第一のユーザーの身分情報と判定した。
幾つかの実施例において、前記第一の音声に基づいて第一の声紋特徴ベクトルを生成することは、前記第一の音声を予め訓練された全体的な背景モデルに導入してマッピングして、第一の声紋特徴スーパーベクトルを取得することと、前記第一の声紋特徴スーパーベクトルを次元削減処理することによって第一の声紋特徴ベクトルを取得することを含み、前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである。
幾つかの実施例において、前記装置は、前記第一のユーザーの身分情報により前記第一のユーザーが所定の人組に属すると判定したことに応答して、前記第一のユーザーの身分情報を判定した時点を前記第一のユーザーの視聴開始時刻としてを記録し、現在時刻と前記第一のユーザーの視聴開始時刻の差は、前記所定の人組の視聴時間閾値より長い、及び/又は現在時刻が所定の時間期間内にあると判定したことに応答して、時刻喚起情報を出力し、及び/又はシャットダウン操作を実行するように構成されている喚起ユニットをさらに含む。
幾つかの実施例において、前記ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。
幾つかの実施例において、前記装置は、さらに、第二のユーザーの第二の音声を受信したことに応答して、前記第二の音声に基づいて、第二の声紋特徴ベクトルを生成し、前記第二の声紋特徴ベクトルを声紋認識モデルに入力して、前記第二のユーザーの身分情報を取得し、前記第一のユーザーと前記第二のユーザーから、最年少のユーザーを特定して出力し、かつ、予め設定された操作オプションページの集合から、前記最年少のユーザーと対応するユーザーモードマッチングの操作オプションページを選択して出力するように構成されている、切替えユニットをさらに含み、前記声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。
第3の態様として、本願の実施形態は、1つ以上のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置とを含み、前記1つまたは複数のプログラムは前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサに第1の態様においていずれかの方法を実現させる電子機器が提供されている。
第4の態様として、本願の実施形態は、コンピュータプログラムが格納されているコンピュータ読み取り可能な媒体が提供されている。前記プログラムはプロセッサにより実行されると、第1の態様においていずれかの方法を実現させる。
本願の実施形態によって提供される情報を出力するための方法及び装置は、ターゲットユーザーモードに入るメッセージを受信した後に、ユーザーの身分情報を判定することによって、ユーザーはターゲットユーザーモードに入る許可があるかどうかを判定する。ある場合、ターゲットユーザーモードにより操作オプションページを選択し出力する。よって、異なるタイプのスマートテレビユーザーに向けてパーソナライズされた操作オプションページを提供する。
以下の図面による非限定的な実施形態についての詳細な説明を読み、参照することにより、本願の他の特徴、目的及び利点がより明らかになる。
本発明が適用される例示的なシステムアーキテクチャ図である。 本発明に係る情報を出力するための方法の一実施形態のフローチャートである。 本発明に係る情報を出力するための方法の適用シナリオの概略図である。 本発明に係る情報を出力するための方法の別の実施形態のフローチャートである。 本発明に係る情報を出力するための装置の一実施形態の概略構成図である。 本発明の一実施形態実現するのに適する電子デバイスのコンピュータシステムの概略構成図である。
以下、図面と実施形態を参照しながら、本願を詳細に説明する。ここで記載される具体的な実施形態は、関連の発明を解釈するのみに用いられ、当該発明に対する限定ではないことは理解される。なお、説明の便宜上、図面には、関連の発明に関わる部分のみを示す。
なお、矛盾が生じない限り、本願における実施形態及び実施形態における特徴は互いに組み合わせることができるものとする。以下、図面を参照しながら、実施形態を併せて本願を詳しく説明する。
図1には、本発明が適用されるテレビ番組を再生するための方法またはテレビ番組を再生するための装置の実施形態の例示的なシステムアーキテクチャ100を示す。
図1に示されたように、システムアーキテクチャ100は、スマートテレビ101とリモートコントローラ102を含んでも良い。スマートテレビ101には視聴者の音声を集音するためのマイクロフォン103が取り付けられている。リモートコントローラ102は、スマートテレビ101を遠隔操作するためのものである。それは、スマートテレビのチャンネル変換、やテレビ番組を再生するための機能などを実現することができる。ネットワークに接続した後、スマートテレビ101は、能提供ウェブブラウザ、フルHD3D体感型ゲーム、ビデオ通話、オンライン教育など様々なエンターテインメント、情報、および学習リソースを提供でき、そして無限に拡張でき、また、組織や個人、プロやアマチュアのソフトウェア愛好家を支援し、何万もの便利な機能的ソフトウェアを独自に開発し共有することもできる。そして、スマートテレビ101は、ネットワーク搜索、ネットワークテレビ、ビデオ・オン・デマンド、デジタル音楽、オンラインニュース、ネットワークビデオテレフォニーなどの様々なアプリケーションサービスを実現できる。ユーザーは、テレビのチャンネルやウェブサイトを検索したり、テレビ番組を録画したり、衛星放送・ケーブルテレビの番組やオンラインビデオを再生したりできる。
スマートテレビ101は、スマートフォンと同様に、完全にオープンなプラットフォームを有し、オペレーティングシステムを搭載し、そして、サードパーティのサービスプロバイダが提供するソフトウェアやゲームなどのプログラムをユーザーによりインストールおよびアンインストールすることによって、カラーテレビの機能を拡張し続ける。そして、ネットワークケーブルと無線ネットワークを通してインターネットをサーフィンすることができる。スマートテレビ101は、マイクロフォン103を介して視聴者の音声を集音し、視聴者のアイデンティティを認識することができる。よって、アイデンティティが異なるユーザーに向けて、異なる操作インターフェースと異なるプログラムを提供する。
なお、本願の実施形態に係るテレビ番組を再生するための方法は、一般に、スマートテレビ101によって実行される。これに対応して、テレビ番組を再生するための装置は、一般的にスマートテレビ101に設置される。
さらに図2を参照すると、本発明に係る情報を出力するための方法の一実施形態の流れ200が示されている。この情報を出力するための方法は、以下のステップを含む。
ステップ201において、第一のユーザーが入力したターゲットユーザーモードに入る要求を示すメッセージを受信する。
本実施形態において、情報を出力するための方法の実行主体(例えば図1に示されたようなスマートテレビ)は、マイクロフォンを通してユーザーが口頭で入力したターゲットユーザーモードに入る音声を受信することができる。例えば、「子供モードに入る」。あるいは、リモートコントローラを介して、第一のユーザーが入力したターゲットユーザーモードに入る要求を示すメッセージを受信する。ユーザーモードは、ユーザーの年齢に応じて区別される操作オプションページのモードである。例えば、高齢者モード、子供モード、大人モード。ターゲットユーザーモードは、ユーザーが入ることを要求するユーザーモードであり、例えば、高齢者モード、子供モード、大人モードのうちの一つ。操作オプションページは、スマートテレビホームページに示されたスマートテレビ操作するためのページである。そのうち、高齢者モードの操作オプションページには、あるオプションを省略でき、例えば、ゲームオプション。高齢者モードの操作オプションページは、さらに、ある特定のオプションを含んでもよく、例えば、演劇チャンネル、スクエアダンスチャンネルなど。高齢者モードは、見えるために、操作オプションページのフォトのオプションを増やすことができる。子供モードは、子供が見るのに適していないプログラムを除外したり、目の保護モードを設定したり、音量や視聴時間を制御したりすることができる。また、子供モードでは、読み書きができない子供が簡単に使用できるように、操作オプションページにピンインを表示することもできる。子供の識別操作のオプションを容易にするために、ページにアニメキャラクターを追加することもできる。
ステップ202において、第一のユーザーの身分情報を判定する。
本実施形態において、ユーザーの身分情報は、音声認識方法又はユーザーがリモートコントローラを介して身分標識を入力する方法により判定される。身分情報は、例えば、父、母、祖父、祖母、娘など家庭メンバー標識を含む。子供、大人、高齢者などカテゴリを含んでもよい。このステップは、ターゲットユーザーモードに入る要求を提出するユーザーの身分情報を判定することである。大人は、子供が子供モードに入るのを助けることができる。子供は、自分で大人モードに入ることを選択できない。
本実施形態の一部の選択可能な実現手段において、第一のユーザーの身分情報を判定することは、以下のステップを含む。
ステップ202A1において、前記第一のユーザーの第一の音声を受信したことに応答して、前記第一の音声に基づいて、第一の声紋特徴ベクトルを生成する。
複数のユーザーがスマートテレビを使用する可能性があるので、第一のユーザー、第二のユーザーにより区別する。第一のユーザーによる音声は第一の音声と称する。第二のユーザーによる音声は第二の音声と称する。第一の音声、第二の音声の処理過程は同じで、説明の便宜上、以下に、第1音声、第2音声を統一に称する。マイクロフォンを介して、ユーザーが口頭で入力した音声を受信する。音声は、遠隔コマンド(例えば、「電源オン」)を含んでもよく、遠隔コマンドを含まなくても良い。声紋は、周波数分析装置に表示された音声情報を運ぶ音波の周波数スペクトルである。現代の科学研究によると、声紋は特定性だけでなく、比較的安定性を示す特徴もある。声紋特徴ベクトルは、ユーザーの声紋の周波数スペクトルの特徴を識別するベクトルであってもよい。オーディオにおいて複数の音声がある場合に、複数の声紋特徴ベクトルを抽出することができる。なお、音声に基づいて声紋特徴ベクトルを生成することは、広く応用・研究されている公知技術であり、ここでは説明しない。
例えば、音声に基づいて声紋特徴ベクトルを生成することは、音声の典型的な特徴を抽出することによって達成することができる。具体的に、音の波長、周波数、強度、リズムなどの特徴がユーザーの音声の特点を反映することができるので、音声から声紋特徴を抽出するときに、音声の波長、周波数、強度、リズムなどの特徴を抽出し、音声の波長、周波数、強度、リズムなどの特徴の特徴量などを声紋特徴ベクトルの要素として確定することができる。
また、一例として、音声に基づいて声紋特徴ベクトルを生成することは、音声の音響的特徴、例えば、メル周波数ケプストラム係数を抽出することによって達成することができる。メル周波数ケプストラム係数は、声紋特徴ベクトルの要素である。音声からメル周波数ケプストラム係数を抽出する工程は、プリエンファシス、フレーム分割、窓掛け、高速フーリエ変換、メルフィルタ、対数変換及び離散コサイン変換を含んでも良い。
ユーザーは、収集されたユーザーによる音声がテレビ番組の音声を含まないように、音声を入力する前に、スマートテレビをリモートコントローラによりミュートすることができる。また、所定の音声指示により、スマートテレビをミュートすることもできる。例えば、ユーザーが「消音」を口頭で入力することによって、スマートテレビをミュートすることができる。
本実施形態の一部の選択可能な実現ユニットにおいて、上述した電子デバイスは、上述した音声を予め訓練された全体的な背景モデル(Universal Background Model、UBM)に導入してマッピングして、声紋特徴スーパーベクトル(即ち、ガウススーパーベクトル)を取得することができる。全体的な背景モデルは、通用背景モデルも呼ばれ、通用背景の特性を表すためのものである。全体的な背景モデルは、多くの詐称者の音声でEM(Expectation−Maximum、期待値最大化)法により訓練されて得られたものであり、UBMモデルの訓練は多くの話者によるものである。訓練された全体的な背景モデルに複数のガウス分布がある場合、個人のマルチフレーム音声特徴シーケンスが抽出されると、その個人の声紋特徴スーパーベクトルを計算することができる。実際に反映したいのは、その人の音響特性と全体的な背景モデルとの間の違い、すなわちその人の発音のユニークな個性である。このようにして、ユーザーの可変長スピーチは、最終的には、ユーザーの発話特性を反映する固定長声紋特徴スーパーベクトルにマッピングすることができる。
このような高次元声紋特徴スーパーベクトルは、個人的な発音の違いだけでなく、チャンネルによって引き起こされる違いも含む可能性がある。従って、何らかの監視下の次元削減法によって、このスーパーベクトルをさらに次元削減し、低次元ベクトルに削減する必要がある。上述した声紋特徴スーパーベクトルは、結合因子分析法(Joint Factor Analysis、JFA)により次元削減処理し、声紋特徴ベクトルを取得することができる。上述した結合因子分析法は、声紋認証法においてチャネルを補正する有効な法である。これは、話者空間とチャネル空間は独立であると仮定し、2つの低次元因子空間において記述することによって、チャネル因子を推定することができる。また、確率的線形判別分析法(Probabilistic Linear Discriminant Analysis、PLDA)により、上述した声紋スーパーベクトルを次元削減処理することによって声紋特徴ベクトルを取得する。上述した確率的線形判別分析法もチャネル補正法であり、確率的線形判別分析法(Linear Discriminant Analysis、LDA)である。また、上述した声紋特徴スーパーベクトルは、識別ベクトル(Identifying Vector、I−Vector)により次元削減処理して、声紋特徴ベクトルを取得することもできる。実際に、声紋の正確性を確保するために、全体的な背景モデルを訓練するとき、通常には、複数の音声を出す必要があり、そして、このような声紋特徴ベクトルを複数抽出し、ユーザーの声紋特徴ベクトルを記憶し、複数のユーザー声紋特徴ベクトルにより声紋ベースを構成することができる。
そして、上述した方法により、声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得することがきできる。多くの人々からの大量の音響特徴ベクトルを使用して、期待値最大化によって訓練によりガウス混合モデルを取得することができる。このモデルは、多くの人々の音声特性データの確率分布を表すものであり、すべての話者の共通性と理解すべき、ある話者の声紋モデルの特定の先験的モデルとみなすことができる。したがって、このガウス混合モデルはUBMモデルとも呼ばれる場合もある。全体的な背景モデルは、ディープニューラルネットワークを通じて構築することもできる。
また、声紋特徴ベクトルを生成する前に、先に音声を処理し、ノイズを除去することができる。例えば、特異値分解法またはフィルタ法により音声におけるノイズを除去する。ここでいうノイズは、音の大きさや音の強さが混乱して不快な音を含んでもよく、対象音の認識を妨げる背景音楽などのような音も含まれる。特異値分解(SVD、Singular Value Decomposition)は、線形代数における重要な行列分解であり、行列解析における正規行列対角化の普及である。信号処理や統計学などの分野で重要な用途がある。SVDに基づくノイズ除去技術は、サブ空間法の一つである。簡単に言えば、ノイズ付き信号ベクトル空間は、それぞれ純粋な信号によるものとノイズによるものとの2つのサブ空間に分解され、そして簡単に「ノイズ空間」にあるノイズ付き信号ベクトル分量を除去することによって、純粋な信号を推定することができる。また、オーディオファイルのノイズは、適応フィルタリングとカルマンフィルタリングによっても除去できる。通常に20〜50msの間隔でフレーム化され、そしていくつかの特徴抽出法(主に時間領域から周波数領域への変換)を通して、各フレームは固定長の音響特徴シーケンスにマッピングすることができる。
ステップ202A2において、第一の声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、第一のユーザーの身分情報を取得する。
声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。また、声紋認識モデルは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すモデルであってもよい。ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。年齢は、特定の年齢層、例えば、4〜8歳、20〜30歳などであり得る。性別と年齢を合わせて、ユーザーの特定の身分情報を判断できる。例えば、子供、高齢者、大人女性、成年男性を識別することができる。家族メンバー標識は、事前に登録された家族メンバーを識別するためのものである。例えば、母、父、娘、祖母などである。家族に、年齢が近く、同じ性別のメンバーが一人しかいない場合、直接にユーザーの年齢と性別により家族メンバーを判断できる。例えば、家族メンバーには母、父、娘、祖母がいる場合に、年齢50〜60の女性は祖母であり、年齢4〜8の女性は娘である。声紋認識モデルは、声紋特徴ベクトルベースの声紋特徴ベクトルを所与のユーザーのカテゴリのうちの1つにマッピングすることによって、ユーザーのカテゴリの予測に適用可能な分類器を含んでもよい。年齢、性別、または年齢と性別の組み合わせによって分類できる。例えば、少女、大人男性、女性高齢者など。即ち、声紋特徴ベクトルを分類器に入力して、ユーザーのカテゴリを出力することができる。本実施形態で使用される分類器は、決定木、ロジスティック回帰、単純ベイズ、ニューラルネットワークなどを含むことができる。分類器は、単純な確率モデルの上に、最大の確率値を使用してデータを分類・予測する。分類器は、事前に訓練されたものである。大量の音声サンプルから声紋特徴ベクトルを抽出し、分類器を訓練する。分類器の構造と実施は、大体、以下のステップを含む。1、サンプル(ポジティブサンプルとネガティブサンプルを含む)を選定し、全てのサンプルを練サンプルとテストサンプルとの2つ部分に分ける。2、訓練サンプル実行分類器法に基づいて、分類器を生成する。3、テストサンプルを分類器に入力して、予測結果を生成する。4、予測結果に基づいて、必要な評価指標を計算し、分類器の性能を評価する。
例えば、大量の子供の音声をポジティブサンプルとして採集して、大量の大人の音声をネガティブサンプルとして採集する。ポジティブサンプルとネガティブサンプルによる分類器法に基づいて、分類器を生成する。また、予測結果が子供であるかどうかを検証するために、ポジティブサンプルとネガティブサンプルをそれぞれ分類器に入力して、予測結果を生成する。予測結果により、分類器の性能を評価する。
声紋認識モデルはさらに、家族メンバーマッピング表も含んでもよく。上述した家族メンバーマッピング表には、家族メンバー標識、性別、年齢の対応関係が記録されている。家族メンバーマッピング表において、分類器の分類結果を調べることによって、家族メンバー標識を判定することができる。例えば、分類器に出力された結果は、年齢50〜60の女性である場合、家族メンバーマッピング表によりこのユーザーの家族メンバー標識は、祖母であると判定された。
また、声紋認識モデルは声紋ベースであってもよい。声紋ベースは、声紋特徴ベクトルと識別情報との対応関係を表すためのものである。声紋特徴ベクトルを所定の声紋ベースに入力してマッチングし、そして一致度の高い順に第一の所定数の識別情報を選定して出力する。同一のユーザーの音声を複数集音して、ステップ201において、このユーザーの声紋特徴ベクトルを構築し、声紋特徴ベクトルと識別情報との対応関係を確立し、複数のユーザーの声紋特徴ベクトルと識別情報との対応関係を登録することにより、声紋ベースを構築する。上述した声紋特徴ベクトルと上述した声紋ベースとの一致度を計算するときに、マンハッタン距離(Manhattan Distance)により計算してもよく、ミンコフスキー距離(Minkowski Distance)により計算してもよく、コサイン類似度(Cosine Similarity)により計算してもよい。
本実施形態の一部の選択可能な実現手段において、第一のユーザーの身分情報を判定するステップは、以下のステップを含む。
ステップ202B1において、ユーザーの識別情報を確認するための質問を出力する。この問題は、主に、成人としての偽装を防ぐために使用される。従って、子供が回答しがたい問題を設定することができ、例えば、テレビ画面上に「モード切替えパスワードを入力してください」を表示するか、音声で「モード切替えパスワードを入力してください」を提示することができる。子供がパスワードを思い出すのを防ぐために、ランダムに質問を生成することもできる。例えば、英語の質問、数学の問題、古代の詩の質問などであれば、ユーザーに答えてもらう。ユーザーは、リモートコントローラにより選択するか、直接に答えを入力するか、音声で回答することができる。
ステップ202B2,前記第一のユーザーによる返信情報を受信したことに応答して、所定の回答の集合に前記返信情報とマッチングする答えがあるかどうかを判定する。
そのうち、その答えは、ユーザー身分情報と対応する。パスワードの質問の場合、各パスワードは、あるユーザー身分情報と対応する。ユーザーは、ユーザーによる返信情報によりユーザー身分情報を判定することができる。例えば、大人用パスワードは、「adult」に予め設定され、子供用パスワードは、「child」に予め設定される。スマートテレビが「adult」を受信した場合、当該ユーザーは大人であると判断することができる。固定答えがある質問の場合、ユーザーによる返信情報を固定回答と比較することができる。回答を容易にするために、質問するときに選択肢を用意することによって、ユーザーはA、B、C、Dを選択するだけで済む。
ステップ202B3において、答えがある場合、前記返信情報とマッチングする回答と対応するユーザー身分情報は、前記第一のユーザーの身分情報と判定した。
回答はユーザー身分情報と対応する。異なる答えは異なる識別情報に対応する。パスワードの質問の場合、各パスワードは、あるユーザー身分情報と対応する。ユーザー身分は、ユーザーが応答したパスワードに従って見つけることができる。パスワードの質問ではない場合、ユーザーによる返信情報に基づいて、答えが正しいかどうかを判定することができる。所定の回答の集合に返信情報とマッチングする答えがない場合、その答えは正しくなく、ユーザーの身分情報を識別することができない。所定の回答の集合に返信情報とマッチングする答えがある場合、その答えが正しく、答えとユーザー身分情報との対応関係によりユーザーの身分情報を判定した。
ステップ203において、ターゲットユーザーモードを第一のユーザーの身分情報とマッチングする。
本実施形態において、各身分情報は少なくとも一つのユーザーモードとマッチングする。例えば、大人は、子供モード、高齢者モード、大人モードとマッチングすることができる。高齢者は、子供モード、高齢者モードとマッチングすることができる。子供は、ただ子供モードとマッチングすることができる。身分情報は子供であると判定したとき、ユーザーによって要求されたターゲットユーザーモードが大人モードである場合、マッチングしない。身分情報は子供であると判定したとき、ユーザーが要求したターゲットユーザーモードが子供モードである場合、マッチングする。大人は、子供或いは高齢者を助けて、ターゲットユーザーモードを選択することも可能である。大人モードに入りたい子供は、大人の助けが必要である。よって、子供が大人の監督下で、大人モードに入る。大人の監督がない場合、子供モードに入ることしかできない
ステップ204において、マッチングが成立した場合、予め設定された操作オプションページの集合から、ターゲットユーザーモードとマッチングする操作オプションページを選択して出力する。
本実施形態において、異なるユーザーモードは、異なる操作オプションページと対応する。マッチングが成立した場合、ユーザーが要求したターゲットユーザーモードに直接入る。操作オプションページは、スマートテレビのホームページを含んでも良い。また、また、メニューの形式で操作オプションを含んでも良い。操作オプションは、チャンネルオプション、サウンドオプション、イメージオプションなどがある。予め設定された操作オプションページの集合の操作オプションページはそれぞれ異なる。例えば、高齢者モードに向ける操作オプションページのフォントを大きくして、操作オプションの数を少なくすることによって、操作が複雑で高齢者に影響を与えなくなる。子供モードに向ける操作オプションページは、チャンネルオプション(例えば、演劇チャンネル、広告チャンネル等)が削除され、幼児にとって簡単に識別できるピンインを表示するようになる。大人モードに向ける操作オプションページは、スマートテレビでサポートされている全ての機能が表示される。
ステップ205において、マッチングが成立しない場合、予め設定された操作オプションページの集合から、第一のユーザーの身分情報とマッチングするユーザーモードマッチングの操作オプションページを選択して出力する。
本実施形態において、マッチングが成立しない場合、ユーザーが要求したターゲットユーザーモードに入らない。ユーザーの身分情報とマッチングするユーザーモードに入る。例えば、ユーザーの身分情報は子供の場合、大人モードに入ることを要求しているが、要求したユーザーモードは子供の実際の身分とマッチングしないので、依然として子供モードに入ることしか許可されていない。
選択可能なのは、ステップ202において、ユーザーの身分情報が判定されていない場合、所定のゲストモードに入ることができる。に特定の権限を設定し、例えば、有料番組を視聴出来ないなど、または、ゲストに向けて子供モードが使用される。
本実施形態の一部の選択可能な実現手段において、上述した方法はさらに以下のステップを含む。
ステップ2051において、第一のユーザーの身分情報により第一のユーザーが所定の人組に属すると判定したことに応答して、第一のユーザーの身分情報を判定した時点を第一のユーザーの視聴開始時刻として記録する。所定の人組は、高齢者または子供でも良い。高齢者または子供の健康のために、視聴時間を制御する必要がある。従って、ユーザーがテレビを視聴し始める時間は当該ユーザーの視聴開始時刻として記録される。ステップ202において、第一のユーザーの身分情報を確定した後に、視聴開始時刻を記録する。時間の長さだけでなく、具体的な時間も監視することができる。例えば、夕方12時以降に、高齢者又は子供は、テレビを視聴することができない。
ステップ2052において、現在時刻と第一のユーザーの視聴開始時刻の差は、所定の人組の視聴時間閾値より長いこと及び/又は現在時刻が所定の時間期間内にあると判定したことに応答して、時刻喚起情報の出力及び/又はシャットダウン操作を実行する。現在時刻とユーザーの視聴開始時刻との差は、当該ユーザーの視聴時間としてもよい。視聴時間は、所定の人組の視聴時間閾値を超えると、テレビ番組を再生しないか、シャットダウンする。先に、文字または声音の形で、ユーザーにタイムアウトするように催促されてもよい。所定の人組がテレビを視聴させないための所定の時間間隔を例えば、夕方の12時〜朝の6時に設定することも可能である。
さらに図3を参照すると、図3は、本発明に係る情報を出力するための方法の適用シナリオの概略図である。図3の適用シナリオにおいて、ユーザーとして子供は、マイクロフォンによりスマートテレビにターゲットユーザーモードに入るという音声、即ち「子供モードに入る」を出力する。スマートテレビは、音声により、「子供モードに入って」、声紋特徴ベクトルを抽出した後に、予め訓練された声紋認識モデルにより、ユーザーの身分情報が子供であると判定した。そして、ターゲットユーザーモード(子供モード)は、ユーザーの身分情報「子供」とマッチングすると判定した。予め設定された子供、大人、高齢者にそれぞれ向ける操作オプションページの集合から、子供モードと対応する操作オプションページを選択して出力する。子供モードでの操作オプションページは、子供の使用習慣により、子供に向けてピンインや漫画のキャラクターなどの情報を追加する。子供には向かない他の機能の使用も禁止されている。
本願の上記の実施形態によって提供された方法は、ユーザー識別情報がユーザーによって要求されたユーザパターンとマッチングするかどうかを検証することによって、異なるタイプのスマートテレビユーザーにパーソナライズされた操作オプションページを提供しながら、特定のグループの身体的および精神的健康を保護することができる。
さらに図4を参照すると、情報を出力するための方法の別の実施形態の流れ400を示す。該情報を出力するための方法の流れ400は、以下のステップを含む。
ステップ401において、第一のユーザーが入力したターゲットユーザーモードに入る要求を示すメッセージを受信する。
ステップ402において、第一のユーザーの身分情報を判定する。
ステップ403において、ターゲットユーザーモードを第一のユーザーの身分情報とマッチングする。
ステップ404において、マッチングが成立した場合、予め設定された操作オプションページの集合から、ターゲットユーザーモードとマッチングする操作オプションページを選択して出力する。
ステップ405において、マッチングが成立しない場合、予め設定された操作オプションページの集合から、第一のユーザーの身分情報とマッチングするユーザーモードマッチングの操作オプションページを選択して出力する。
ステップ401〜405は、ステップ201〜205と基本的に同じてあり、ここでは説明しない。
ステップ406において、第二のユーザーの第二の音声を受信したことに応答して、前記第二の音声に基づいて、第二の声紋特徴ベクトルを生成する。
本実施形態において、スマートテレビには、複数の使用者がいる可能性があるので、第二のユーザーの第二の音声を受信したときに、第二のユーザーの身分情報は、現在のユーザーモードとマッチングするかどうかを検証することができ、マッチングが成立しない場合、ユーザーモードを切替える必要がある。可参考ステップ202A1の方法を参照して、第二の音声に基づいて、第二の声紋特徴ベクトルを生成する。具体的な過程は、第一の音声に基づいて、第一の声紋特徴ベクトルを生成することと基本的に同じであるので、ここで説明しない。
ステップ407において、第二の声紋特徴ベクトルを声紋認識モデルに入力して、第二のユーザーの身分情報を取得する。
本実施形態において、声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。当該ステップは、ステップ202A2を参照することができる。具体的な過程は、第一の声紋特徴ベクトルを声紋認識モデルに入力して、第一のユーザーの身分情報を取得することと基本的に同じであるので、ここで説明しない。
ステップ408において、第一のユーザーと前記第二のユーザーから最年少のユーザーを特定して出力し、かつ、予め設定された操作オプションページの集合から、前記最年少のユーザーと対応するユーザーモードマッチングの操作オプションページを選択して出力する。
本実施形態において、声紋認識モデルは、ユーザーのおおよその年齢を認識することができる。よって、予め設定された操作オプションページの集合から、最年少のユーザーと対応するユーザーモードマッチングの操作オプションページを選択して出力する。例えば、第一のユーザーは子供の場合、第二のユーザーが大人の場合でも、子供モードと対応する操作オプションページを出力する。そのまま元のユーザーモードを維持し、操作オプションページを切替える必要がない。第一のユーザーが大人の場合は、現在大人モードで、第二のユーザーが子供の場合は、子供モードを切替える必要がある。
図4から分かるように、図2の実施形態と比較して、本実施形態に係る情報を出力するための方法の流れ400は、ユーザーモードを切替えるステップを強調した。これにより、本実施形態で説明された形態は、異なるユーザーが同時にテレビを視聴する時に若いユーザーに対する保護を導入することができる。よって、子供に向けて保護の全面性を改善する。
さらに図5を参照すると、各図に示される方法の実現として、本発明は、情報を出力するための装置の一実施形態を提供し、この装置実施形態の実施形態は、図2に示される方法の実施形態に対応し、この装置は、具体的に様々な電子デバイスに適用することができる。
図5に示されたように、本実施形態に係る情報を出力するための装置500は、受信ユニット501、判定ユニット502、マッチングユニット503及び出力ユニット504を含む。受信ユニット501は、第一のユーザーが入力したターゲットユーザーモードに入る要求を示すメッセージを受信するように構成されている。判定ユニット502は、第一のユーザーの身分情報を判定するように構成されている。マッチングユニット503は、ターゲットユーザーモードは第一のユーザーの身分情報とマッチングするかどうかを判定するように構成されているように構成されている。出力ユニット504は、マッチングが成立した場合、予め設定された操作オプションページの集合から、ターゲットユーザーモードとマッチングする操作オプションページを選択して出力するように構成されている。
本実施形態において、情報を出力するための装置500における受信ユニット501、判定ユニット502、マッチングユニット503と出力ユニット504の具体的な処理については、図2と対応する実施形態のステップ201、ステップ202、ステップ203、ステップ204を参照することができる。
本実施形態の一部の選択可能な実現手段において、出力ユニット504は、さらに、マッチングが成立しない場合、予め設定された操作オプションページの集合から、第一のユーザーの身分情報とマッチングするユーザーモードマッチングの操作オプションページを選択して出力するように構成されている。
本実施形態の一部の選択可能な実現手段において、判定ユニット502は、さらに、第一のユーザーの第一の音声を受信したことに応答して、第一の音声に基づいて、第一の声紋特徴ベクトルを生成し、第一の声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、第一のユーザーの身分情報を取得するように構成され、声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものであ。
本実施形態の一部の選択可能な実現手段において、判定ユニット502は、さらに、ユーザーの識別情報を確認するための質問を出力し、第一のユーザーによる返信情報を受信したことに応答して、所定の回答の集合に返信情報とマッチングする答えがあるかどうかを判定し、その答えは、ユーザー身分情報と対応し、答えがある場合、返信情報とマッチングする回答と対応するユーザー身分情報は、第一のユーザーの身分情報と判定したように構成されている。
本実施形態の一部の選択可能な実現手段において、判定ユニット502は、されに、第一の音声を予め訓練された全体的な背景モデルに導入してマッピングして、第一の声紋特徴スーパーベクトルを取得し、第一の声紋特徴スーパーベクトルを次元削減処理することによって第一の声紋特徴ベクトルを取得するように構成されている。前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである。
本実施形態の一部の選択可能な実現手段において、装置500は、さらに、人間に属すると判定したことに応答して、第一のユーザーの身分情報を判定した時点を第一のユーザーの視聴開始時刻として記録し、現在時刻と第一のユーザーの視聴開始時刻の差は、所定の人組の視聴時間閾値より長いこと及び/又は現在時刻が所定の時間期間内にあると判定したことに応答して、時刻喚起情報の出力及び/又はシャットダウン操作を実行するように構成されている喚起ユニットをさらに含む。
本実施形態の一部の選択可能な実現手段において、身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含む。
本実施形態の一部の選択可能な実現手段において、装置500は、さらに、第二のユーザーの第二の音声を受信したことに応答して、第二の音声に基づいて、第二の声紋特徴ベクトルを生成し、第二の声紋特徴ベクトルを声紋認識モデルに入力して、第二のユーザーの身分情報を取得し、第一のユーザーと第二のユーザーから、最年少のユーザーを特定して出力し、かつ、予め設定された操作オプションページの集合から、最年少のユーザーと対応するユーザーモードマッチングの操作オプションページを選択して出力するように構成されている切替えユニットをさらに含み、声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである。
以下、図6を参照すると、本発明の一実施形態実現するのに適する電子デバイス(図1に示されたようなスマートテレビ)のコンピュータシステム600の概略構成図を示す。図6に示す電子デバイスは、あくまでも一例であり、本発明の本実施形態の機能及び利用範囲を限定するものではない。
図6に示す通り,コンピュータシステム600は、読み出し専用メモリ(ROM、Read Only Memory)602に記憶されているプログラム又は記憶部608からランダムアクセスメモリ(RAM、Random Access Memory)603にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU、Central Processing Unit)601を備える。RAM603には、システム600の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU601、ROM602およびRAM603は、バス604を介して互いに接続されている。入力/出力(I/O、Input / Output)インターフェース605もバス604に接続されている。
I/Oインターフェース605には、リモートコントローラ、マイクロフォン等からなる入力部606と、陰極線管(CRT)、液晶表示装置(LCD)、スピーカ等からなる出力部607と、ハードディスク等からなる記憶部608と、LANカードやモデム等のネットワークインターフェースカードからなる通信部609とを備えている。通信部609は、インターネットなどのネットワークを介した通信処理を行う。ドライブ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライブ610に取り付けられるので、ドライブ610から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
特に、本発明の実施形態によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムで実施することができる。例えば、本発明の一実施形態は、機械可読媒体に有形に埋め込まれたコンピュータプログラムを含むコンピュータプログラム製品を含む。コンピュータプログラムは、フローチャートに示されるような方法を実行するためのプログラムコードを含む。このような実施形態において、このコンピュータプログラムは、通信部609を介してネットワークからダウンロードされインストールされてもよく、リムーバブルメディア611からインストールされてもよい。このコンピュータプログラムが中央処理装置(CPU)601によって実行されると、本発明の方法によって定義される上記機能を実現する。なお、本発明のコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体、或いは上記両者の任意の組み合わせであっても良い。コンピュータ可読記憶媒体は、例えば電気、磁気、光、電磁気、赤外線、半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ可読記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子、磁気記憶素子、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含むか記憶する任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ可読信号媒体は、ベースバンドに伝送され或いはキャリアの一部として伝送され、コンピュータ可読プログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号、光信号又は上記任意の適当の組み合わせを含むが、それらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であっても良い。当該コンピュータ可読媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線、電線、光ケーブル、RFなど、或いは上記任意の適当の組み合わせを含むが、それらに限定されない。
一つ又は複数種のプログラミング言語又はそれらの組み合わせで本出願の操作を実行するためのコンピュータプログラムコードをプログラミングすることができる。上記プログラミング言語には、Java(登録商標)、Smalltalk、C++のようなオブジェクト指向プログラミング言語が含まれ、更にC言語又は類似のプログラミング言語のような通常の手続き型プログラミング言語が含まれる。プログラムコードは、全体がユーザコンピュータに実行されても良く、一部がユーザコンピュータに実行されても良く、一つの独立なパッケージとして実行されても良く、一部がユーザコンピュータに実行され且つ一部がリモートコンピュータに実行されても良く、或いは全体がリモートコンピュータ又はサーバに実行されても良い。リモートコンピュータに関する場合に、リモートコンピュータはローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークによりユーザコンピュータに接続されても良く、或いは外部のコンピュータ(例えばインターネットサービスプロバイダを利用してインターネットにより接続する)に接続されても良い。
図面におけるフローチャート及びブロック図は、本願の各実施形態によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び操作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュール、プログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。注意すべきなのは、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なって発生されても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って確定される。注意すべきなのは、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。
本発明の実施形態に説明されたユニットはソフトウェアのユニットで実現されても良く、ハードウェアのユニットで実現されても良い。説明されたユニットは、プロセッサに設置されても良い。例えば、受信ユニット、判定ユニット、マッチングユニット、および出力ユニットを含むプロセッサとして記載されても良い。なお、これらユニットの名称は、ある場合に当該ユニットの自身に対する限定とされない。例えば、受信ユニットを「第一のユーザーが入力した要求を受信し、ターゲットユーザーモードのメッセージに入る的ユニットである」と記載されても良い。
別の形態として、本発明は更にコンピュータ可読媒体を提供した。当該コンピュータ可読媒体は、上記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。上記コンピュータ可読媒体に一つ又は複数のプログラムがロードされる。上記一つ又は複数のプログラムが当該装置により実行されると、装置は、第一のユーザーが入力したターゲットユーザーモードに入る要求を示すメッセージを受信する。第一のユーザーの身分情報を判定する。ターゲットユーザーモードは第一のユーザーの身分情報とマッチングするかどうかを判定する。マッチングが成立した場合、予め設定された操作オプションページの集合から、ターゲットユーザーモードとマッチングする操作オプションページを選択して出力する
以上の記載は、本願の好ましい実施形態、及び使われている技術的原理の説明に過ぎない。当業者は、本願に係る保護範囲が、上記の技術特徴による特定お組合せからなる技術方案に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、上記技術特徴又は均等の特徴の任意の組合せからなる他の技術方案も含まれることを理解している。例えば、上記特徴と、本願に開示された類似の機能を持っている技術特徴(これらに限定されていない)とを互いに置き換えてなる技術方案も含まれる。

Claims (18)

  1. 情報を出力するための方法であって、
    第一のユーザーが入力した、ターゲットユーザーモードに入る要求を示すメッセージを受信するステップと、
    前記第一のユーザーの身分情報を判定するステップと、
    前記ターゲットユーザーモードが前記第一のユーザーの身分情報にマッチングするかどうかを判定するステップと、
    マッチングが成立した場合、予め設定された操作オプションページの集合から、前記ターゲットユーザーモードにマッチングする操作オプションページを選択して出力するステップと、
    を含む、情報を出力するための方法。
  2. マッチングが成立しない場合、予め設定された操作オプションページの集合から、前記第一のユーザーの身分情報にマッチングするユーザーモードマッチングの操作オプションページを選択して出力するステップをさらに含む請求項1に記載の方法。
  3. 前記第一のユーザーの身分情報を判定するステップは、
    前記第一のユーザーの第一の音声を受信したことに応答して、前記第一の音声に基づいて、第一の声紋特徴ベクトルを生成するステップと、
    前記第一の声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、前記第一のユーザーの身分情報と取得するステップであって、前記声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものであるステップと
    を含む、請求項1に記載の方法。
  4. 前記第一のユーザーの身分情報を判定するステップは、
    ユーザーの識別情報を確認するための質問を出力するステップと、
    前記第一のユーザーによる返信情報を受信したことに応答して、所定の回答の集合に前記返信情報にマッチングする答えがあるかどうかを判定するステップであって、その答えは、ユーザー身分情報と対応するステップと、
    答えがある場合、前記返信情報にマッチングする回答と対応するユーザー身分情報が前記第一のユーザーの身分情報と判定するステップと、
    を含む、請求項1に記載の方法。
  5. 前記第一の音声に基づいて第一の声紋特徴ベクトルを生成するステップは、
    前記第一の音声を予め訓練された全体的な背景モデルに導入してマッピングして、第一の声紋特徴スーパーベクトルを取得するステップであって、前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものであるステップと、
    前記第一の声紋特徴スーパーベクトルを次元削減処理することによって第一の声紋特徴ベクトルを取得するステップと
    を含む、請求項3に記載の方法。
  6. 前記第一のユーザーの身分情報により前記第一のユーザーが所定の人組に属すると判定したことに応答して、前記第一のユーザーの身分情報を判定した時点を前記第一のユーザーの視聴開始時刻として記録するステップと、
    現在時刻と前記第一のユーザーの視聴開始時刻の差は、前記所定の人組の視聴時間閾値より長い、及び/又は現在時刻が所定の時間期間内にあると判定したことに応答して、時刻喚起情報を出力し、及び/又はシャットダウン操作を実行するステップと、をさらに含む請求項1に記載の方法。
  7. 前記ユーザーの身分情報は、性別、年齢、家族メンバー標識のうちの少なくとも一つを含む、請求項1〜6のいずれか一項に記載の方法。
  8. 第二のユーザーの第二の音声を受信したことに応答して、前記第二の音声に基づいて、第二の声紋特徴ベクトルを生成するステップと、
    前記第二の声紋特徴ベクトルを声紋認識モデルに入力して、前記第二のユーザーの身分情報を取得するステップであって、前記声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものであるステップと、
    前記第一のユーザーと前記第二のユーザーから最年少のユーザーを特定して出力し、かつ、予め設定された操作オプションページの集合から、前記最年少のユーザーと対応するユーザーモードマッチングの操作オプションページを選択して出力するステップと、
    をさらに含む、請求項7に記載の方法。
  9. 情報を出力するための装置であって、
    第一のユーザーが入力した、ターゲットユーザーモードに入る要求を示すメッセージを受信するように構成されている受信ユニットと、
    前記第一のユーザーの身分情報を判定するように構成されている判定ユニットと、
    前記ターゲットユーザーモードが前記第一のユーザーの身分情報にマッチングするかどうかを判定するように構成されているマッチングユニットと、
    マッチングが成立した場合、予め設定された操作オプションページの集合から、前記ターゲットユーザーモードにマッチングする操作オプションページを選択して出力するように構成されている出力ユニットと、
    を含む、情報を出力するための装置。
  10. 前記出力ユニットは、さらに、
    マッチングが成立しない場合、予め設定された操作オプションページの集合から、前記第一のユーザーの身分情報にマッチングするユーザーモードマッチングの操作オプションページを選択して出力するように構成されている、請求項9に記載の装置。
  11. 前記判定ユニットは、さらに、
    前記第一のユーザーの第一の音声を受信したことに応答して、前記第一の音声に基づいて、第一の声紋特徴ベクトルを生成し、
    前記第一の声紋特徴ベクトルを予め訓練された声紋認識モデルに入力して、前記第一のユーザーの身分情報を取得し、前記声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものであるように構成されている、請求項9に記載の装置。
  12. 前記判定ユニットは、さらに、
    ユーザーの識別情報を確認するための質問を出力し、
    前記第一のユーザーによる返信情報を受信したことに応答して、所定の回答の集合に前記返信情報とマッチングする答えがあるかどうかを判定し、その答えは、ユーザー身分情報と対応し、
    答えがある場合、前記返信情報とマッチングする回答に対応するユーザー身分情報が前記第一のユーザーの身分情報と判定したように、構成されている、請求項9に記載の装置。
  13. 前記判定ユニットは、さらに、
    前記第一の音声を予め訓練された全体的な背景モデルに導入してマッピングして、第一の声紋特徴スーパーベクトルを取得し、
    前記第一の声紋特徴スーパーベクトルを次元削減処理することによって第一の声紋特徴ベクトルを取得するように構成され、
    前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである、請求項11に記載の装置,
  14. 前記第一のユーザーの身分情報により前記第一のユーザーが所定の人組に属すると判定したことに応答して、前記第一のユーザーの身分情報を判定した時点を前記第一のユーザーの視聴開始時刻として記録し、
    現在時刻と前記第一のユーザーの視聴開始時刻の差は、前記所定の人組の視聴時間閾値より長い、及び/又は現在時刻が所定の時間期間内にあると判定したことに応答して、時刻喚起情報を出力し、及び/又はシャットダウン操作を実行するように構成されている、喚起ユニットをさらに含む、請求項9に記載の装置。
  15. 前記ユーザーの身分情報は、性別、年齢、家族メンバー標識のうちの少なくとも一つを含む、請求項9〜14のいずれか一項に記載の装置。
  16. 第二のユーザーの第二の音声を受信したことに応答して、前記第二の音声に基づいて、第二の声紋特徴ベクトルを生成し、
    前記第二の声紋特徴ベクトルを声紋認識モデルに入力して、前記第二のユーザーの身分情報を取得し、前記声紋認識モデルとは、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものであり、
    前記第一のユーザーと前記第二のユーザーから、最年少のユーザーを特定して出力し、かつ、予め設定された操作オプションページの集合から、前記最年少のユーザーと対応するユーザーモードマッチングの操作オプションページを選択して出力するように構成されている、切替えユニットをさらに含み、
    請求項15に記載の装置。
  17. 電子デバイスであって、
    1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが格納されている記憶装置と、を含み、
    前記1つまたは複数のプログラムは前記1つまたは複数のプロセッサにより実行されると、請求項1〜8のいずれか一項に記載の方法を前記1つまたは複数のプロセッサに実現させる電子デバイス。
  18. コンピュータプログラムが格納されているコンピュータ可読媒体であって、
    前記プログラムはプロセッサにより実行されると、請求項1〜8のいずれか一項に記載の方法を実現させるコンピュータ可読媒体。
JP2019047123A 2018-06-08 2019-03-14 情報を出力するための方法、及び装置 Pending JP2019212288A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810589033.2A CN108882032A (zh) 2018-06-08 2018-06-08 用于输出信息的方法和装置
CN201810589033.2 2018-06-08

Publications (1)

Publication Number Publication Date
JP2019212288A true JP2019212288A (ja) 2019-12-12

Family

ID=64337534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019047123A Pending JP2019212288A (ja) 2018-06-08 2019-03-14 情報を出力するための方法、及び装置

Country Status (3)

Country Link
US (1) US20190378494A1 (ja)
JP (1) JP2019212288A (ja)
CN (1) CN108882032A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021174518A (ja) * 2020-04-28 2021-11-01 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマート音声機器の制御方法、装置、電子機器及び記憶媒体

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671438A (zh) * 2019-01-28 2019-04-23 武汉恩特拉信息技术有限公司 一种利用语音提供辅助服务的装置及方法
CN110134022B (zh) * 2019-05-10 2022-03-18 平安科技(深圳)有限公司 智能家居设备的声音控制方法、装置、及电子装置
CN110689886B (zh) * 2019-09-18 2021-11-23 深圳云知声信息技术有限公司 设备控制方法及装置
CN111010481B (zh) * 2019-12-16 2022-06-24 北京小米移动软件有限公司 来电监听方法、来电监听装置及计算机存储介质
CN111081249A (zh) * 2019-12-30 2020-04-28 腾讯科技(深圳)有限公司 一种模式选择方法、装置及计算机可读存储介质
CN113553105A (zh) * 2020-04-23 2021-10-26 百度在线网络技术(北京)有限公司 引导页面的生成方法和装置
CN112333550B (zh) * 2020-06-19 2024-01-19 深圳Tcl新技术有限公司 节目查询方法、装置、设备及计算机存储介质
CN111787387A (zh) * 2020-06-30 2020-10-16 百度在线网络技术(北京)有限公司 内容显示方法、装置、设备以及存储介质
CN111899717A (zh) * 2020-07-29 2020-11-06 北京如影智能科技有限公司 一种语音回复方法及装置
CN114079806B (zh) * 2020-08-06 2024-06-04 深圳Tcl新技术有限公司 一种个性化页面显示方法及相关设备
CN112000726A (zh) * 2020-09-03 2020-11-27 未来穿戴技术有限公司 按摩操作模式的存储方法及电子设备、存储介质
CN112423069A (zh) * 2020-11-20 2021-02-26 广州欢网科技有限责任公司 模式切换方法、装置及设备、智能播放系统
CN115248867A (zh) * 2021-04-26 2022-10-28 北京有竹居网络技术有限公司 一种多媒体内容展示方法、装置、设备及存储介质
CN113676394B (zh) * 2021-08-19 2023-04-07 维沃移动通信(杭州)有限公司 信息处理方法和信息处理装置
CN114999472A (zh) * 2022-04-27 2022-09-02 青岛海尔空调器有限总公司 一种空调控制方法、装置及一种空调
CN114885218A (zh) * 2022-06-16 2022-08-09 深圳创维-Rgb电子有限公司 自动选择观看模式的方法、电视机、设备及存储介质
CN116055818A (zh) * 2022-12-22 2023-05-02 北京奇艺世纪科技有限公司 视频播放方法、装置、电子设备及存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083991A (ja) * 1999-09-16 2001-03-30 Denso Corp ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JP2001142481A (ja) * 1999-08-26 2001-05-25 Matsushita Electric Ind Co Ltd 音声/ビデオ装置用の制御システム及び音声/ビデオ構成を制御するための統合アクセスシステム
JP2006238391A (ja) * 2005-02-28 2006-09-07 Funai Electric Co Ltd リモコン装置
JP2007048288A (ja) * 2005-08-10 2007-02-22 Samsung Electronics Co Ltd モード基盤の接近制御方法及び装置
JP2008503113A (ja) * 2004-04-26 2008-01-31 松下電器産業株式会社 ホームネットワークに接続された装置の使用の親による監視および制御の方法
JP2009139390A (ja) * 2007-12-03 2009-06-25 Nec Corp 情報処理システム、処理方法及びプログラム
US20110060592A1 (en) * 2009-09-10 2011-03-10 Kang Byung Ok Iptv system and service method using voice interface
JP2011248002A (ja) * 2010-05-25 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 翻訳装置
JP2013152610A (ja) * 2012-01-25 2013-08-08 Mitsubishi Motors Corp 車両情報提示装置
WO2014083669A1 (ja) * 2012-11-30 2014-06-05 日立マクセル株式会社 映像表示装置、及びその設定変更方法、設定変更プログラム
CN103914127A (zh) * 2012-12-31 2014-07-09 联想(北京)有限公司 一种电子设备的控制方法及电子设备
WO2014199596A1 (ja) * 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別システム
JP2016504638A (ja) * 2012-09-28 2016-02-12 ロブ フジオカRobb Fujioka タブレットコンピュータ
CN106454515A (zh) * 2016-10-31 2017-02-22 四川长虹电器股份有限公司 智能电视播放控制系统及方法
JP2017108767A (ja) * 2015-12-14 2017-06-22 カシオ計算機株式会社 対話装置、ロボット、対話方法及びプログラム
JP2017123529A (ja) * 2016-01-06 2017-07-13 日立マクセル株式会社 表示装置および表示システムならびに表示方法
JP2017126216A (ja) * 2016-01-14 2017-07-20 株式会社ナビタイムジャパン アプリケーション・プログラム、情報処理装置、及び情報処理方法
CN107623614A (zh) * 2017-09-19 2018-01-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2493613C2 (ru) * 2008-08-22 2013-09-20 Сони Корпорейшн Устройство воспроизведения изображений и способ управления
US9100694B1 (en) * 2013-03-14 2015-08-04 Google Inc. TV mode change in accordance with number of viewers present
CN104065989B (zh) * 2013-03-21 2018-07-06 国民技术股份有限公司 播放终端及其语音控制方法
CN104008320A (zh) * 2014-05-19 2014-08-27 惠州Tcl移动通信有限公司 基于人脸识别的使用权限和用户模式控制方法及系统
CN106156575A (zh) * 2015-04-16 2016-11-23 中兴通讯股份有限公司 一种用户界面控制方法及终端
CN105791935A (zh) * 2016-05-03 2016-07-20 乐视控股(北京)有限公司 一种电视的控制方法及装置
CN105959806A (zh) * 2016-05-25 2016-09-21 乐视控股(北京)有限公司 节目推荐方法及装置
CN106128467A (zh) * 2016-06-06 2016-11-16 北京云知声信息技术有限公司 语音处理方法及装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142481A (ja) * 1999-08-26 2001-05-25 Matsushita Electric Ind Co Ltd 音声/ビデオ装置用の制御システム及び音声/ビデオ構成を制御するための統合アクセスシステム
JP2001083991A (ja) * 1999-09-16 2001-03-30 Denso Corp ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JP2008503113A (ja) * 2004-04-26 2008-01-31 松下電器産業株式会社 ホームネットワークに接続された装置の使用の親による監視および制御の方法
JP2006238391A (ja) * 2005-02-28 2006-09-07 Funai Electric Co Ltd リモコン装置
JP2007048288A (ja) * 2005-08-10 2007-02-22 Samsung Electronics Co Ltd モード基盤の接近制御方法及び装置
JP2009139390A (ja) * 2007-12-03 2009-06-25 Nec Corp 情報処理システム、処理方法及びプログラム
US20110060592A1 (en) * 2009-09-10 2011-03-10 Kang Byung Ok Iptv system and service method using voice interface
JP2011248002A (ja) * 2010-05-25 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 翻訳装置
JP2013152610A (ja) * 2012-01-25 2013-08-08 Mitsubishi Motors Corp 車両情報提示装置
JP2016504638A (ja) * 2012-09-28 2016-02-12 ロブ フジオカRobb Fujioka タブレットコンピュータ
WO2014083669A1 (ja) * 2012-11-30 2014-06-05 日立マクセル株式会社 映像表示装置、及びその設定変更方法、設定変更プログラム
CN103914127A (zh) * 2012-12-31 2014-07-09 联想(北京)有限公司 一种电子设备的控制方法及电子设备
WO2014199596A1 (ja) * 2013-06-10 2014-12-18 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者識別方法、話者識別装置及び話者識別システム
JP2017108767A (ja) * 2015-12-14 2017-06-22 カシオ計算機株式会社 対話装置、ロボット、対話方法及びプログラム
JP2017123529A (ja) * 2016-01-06 2017-07-13 日立マクセル株式会社 表示装置および表示システムならびに表示方法
JP2017126216A (ja) * 2016-01-14 2017-07-20 株式会社ナビタイムジャパン アプリケーション・プログラム、情報処理装置、及び情報処理方法
CN106454515A (zh) * 2016-10-31 2017-02-22 四川长虹电器股份有限公司 智能电视播放控制系统及方法
CN107623614A (zh) * 2017-09-19 2018-01-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021174518A (ja) * 2020-04-28 2021-11-01 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマート音声機器の制御方法、装置、電子機器及び記憶媒体
JP7135063B2 (ja) 2020-04-28 2022-09-12 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド スマート音声機器の制御方法、装置、電子機器及び記憶媒体

Also Published As

Publication number Publication date
CN108882032A (zh) 2018-11-23
US20190378494A1 (en) 2019-12-12

Similar Documents

Publication Publication Date Title
JP2019212288A (ja) 情報を出力するための方法、及び装置
JP6855527B2 (ja) 情報を出力するための方法、及び装置
US20200126566A1 (en) Method and apparatus for voice interaction
CN111415677B (zh) 用于生成视频的方法、装置、设备和介质
CN111930992B (zh) 神经网络训练方法、装置及电子设备
US11475897B2 (en) Method and apparatus for response using voice matching user category
US20200043502A1 (en) Information processing method and device, multimedia device and storage medium
JP2020004381A (ja) 情報プッシュ方法及び装置
CN112102846B (zh) 音频处理方法、装置、电子设备以及存储介质
CN112185389A (zh) 语音生成方法、装置、存储介质和电子设备
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN112989108A (zh) 基于人工智能的语种检测方法、装置及电子设备
CN113555032B (zh) 多说话人场景识别及网络训练方法、装置
CN111640434A (zh) 用于控制语音设备的方法和装置
CN108322770A (zh) 视频节目识别方法、相关装置、设备和系统
CN113707183A (zh) 一种视频中的音频处理方法及装置
CN112580669A (zh) 一种对语音信息的训练方法及装置
CN111654752A (zh) 多媒体信息播放方法、装置及相关设备
US20220015687A1 (en) Method for Screening Psychiatric Disorder Based On Conversation and Apparatus Therefor
CN111755015B (zh) 一种用户画像构建方法及装置
CN114495903A (zh) 一种语言类别识别方法、装置、电子设备和存储介质
Folorunso et al. Laughter signature, a new approach to gender recognition
CN112863476A (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
CN117649846B (zh) 语音识别模型生成方法、语音识别方法、设备和介质
US20240119930A1 (en) Artificial intelligence device and operating method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210806

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210806

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220125