JP6855527B2 - 情報を出力するための方法、及び装置 - Google Patents
情報を出力するための方法、及び装置 Download PDFInfo
- Publication number
- JP6855527B2 JP6855527B2 JP2019047116A JP2019047116A JP6855527B2 JP 6855527 B2 JP6855527 B2 JP 6855527B2 JP 2019047116 A JP2019047116 A JP 2019047116A JP 2019047116 A JP2019047116 A JP 2019047116A JP 6855527 B2 JP6855527 B2 JP 6855527B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- multimedia file
- information
- multimedia
- voiceprint feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 57
- 239000013598 vector Substances 0.000 claims description 80
- 230000003993 interaction Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 3
- 108091006146 Channels Proteins 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000000556 factor analysis Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 230000033764 rhythmic process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000004898 kneading Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4753—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47202—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/238—Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
- H04N21/2387—Stream processing in response to a playback request from an end-user, e.g. for trick-play
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47217—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4826—End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
Claims (16)
- 情報を出力するための方法であって、
ユーザーによる音声の受信に応答して、前記音声に基づいて声紋特徴ベクトルを生成するステップと、
前記声紋特徴ベクトルを声紋認識モデルに入力して、前記ユーザーの身分情報を取得するステップであって、前記ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含むステップと、
予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップと、
前記ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するステップと、を含み、
前記声紋認識モデルは、家族メンバー標識、性別、年齢の対応関係が記録されている家族メンバーマッピング表と、ユーザの声紋特徴ベクトルを入力として当該ユーザの性別及び年齢のうちの少なくとも1つを出力する分類器とを有し、
分類器により出力された結果で前記家族メンバーマッピングにおいて検索することにより前記家族メンバー標識が得られる、方法。 - 前記音声に基づいて声紋特徴ベクトルを生成するステップは、
前記音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得するステップであって、前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものであるステップと、
前記声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得するステップと、
を含む、請求項1に記載の方法。 - 前記音声が動作指示を含むと判定したことに応答して、前記動作指示を実行するステップをさらに含み、
前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも1つを含む、請求項1に記載の方法。 - マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するステップをさらに含み、
前記予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、
検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項3に記載の方法。 - マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するステップをさらに含み、
前記予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するステップは、
再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項3に記載の方法。 - 予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するステップと、
選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、前記ユーザーと音声インタラクションするステップと、をさらに含む請求項1〜5のいずれか一項に記載の方法。 - 前記声紋認識モデルとは、予め訓練された、声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのものである、請求項1〜5のいずれか一項に記載の方法。
- 情報を出力するための装置であって、
ユーザーによる音声の受信に応答して、前記音声に基づいて声紋特徴ベクトルを生成するように構成されている生成ユニットと、
前記声紋特徴ベクトルを声紋認識モデルに入力して、前記ユーザーの身分情報を取得するように構成されている認識ユニットであって、前記ユーザーの身分情報は、少なくとも性別、年齢、家族メンバー標識のうちの少なくとも一つを含むユニットと、
予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択するように構成されているオプションユニットと、
前記ターゲットマルチメディアファイルに基づいて、プレビュー情報を生成して出力するように構成されている出力ユニットと、を含み、
前記声紋認識モデルは、家族メンバー標識、性別、年齢の対応関係が記録されている家族メンバーマッピング表と、ユーザの声紋特徴ベクトルを入力として当該ユーザの性別及び年齢のうちの少なくとも1つを出力する分類器とを有し、
分類器により出力された結果で前記家族メンバーマッピングにおいて検索することにより前記家族メンバー標識が得られる、装置。 - 前記生成ユニットは、さらに、
前記音声を予め訓練された全体的な背景モデルに導入してマッピングして、声紋特徴スーパーベクトルを取得し、
前記声紋特徴スーパーベクトルを次元削減処理することによって、声紋特徴ベクトルを取得するように構成され、
前記全体的な背景モデルとは、音声と声紋特徴スーパーベクトルとの対応関係を表すためのものである、請求項8に記載の装置。 - 前記音声が動作指示を含むと判定したことに応答して、前記動作指示が実行されるように構成されている実行ユニットをさらに含み、前記動作指示は、チャンネル選択、音量制御、画像パラメータ調整、マルチメディアファイル検索、マルチメディアファイル再生のうちの少なくとも1つを含む、請求項8に記載の装置。
- マルチメディアファイルを検索するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを検索する回数をこのマルチメディアファイルとマッチングする検索回数として累積するように構成されている検索回数統計ユニットをさらに含み、
前記予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、
検索回数が大きい順に従って、予め設定されたマルチメディアファイルの集合の中から、取得したユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項10に記載の装置。 - 前記装置は、
マルチメディアファイルを再生するための操作指示に係る少なくとも一つのマルチメディアファイルの中のマルチメディアファイルに対して、このマルチメディアファイルを再生する回数をこのマルチメディアファイルとマッチングする再生回数として累積するように構成されている再生回数統計ユニットをさらに含み、
前記予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することは、
再生回数が大きい順に従って予め設定されたマルチメディアファイルの集合の中から、前記ユーザーの身分情報とマッチングする所定数のマルチメディアファイルをターゲットマルチメディアファイルとして選択することを含む、請求項10に記載の装置。 - 予め設定された音色情報の集合の中から、前記ユーザーの身分情報とマッチングする音色情報を選択するように構成されているチューニングユニットをさらに含み、
選択された音色情報によって示された音色を用いて音声インタラクション情報を出力することにより、前記ユーザーと音声インタラクションする、請求項8〜12のいずれか一項に記載の装置。 - 前記声紋認識モデルとは、予め訓練された、前記声紋特徴ベクトルとユーザーの身分情報との対応関係を表すためのモデルである請求項8〜12のいずれか一項に記載の装置。
- 電子デバイスであって、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムが格納されている記憶装置と、を含み、
前記1つまたは複数のプログラムは前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサに請求項1〜7のいずれか一項に記載の方法を実現させる電子デバイス。 - コンピュータプログラムが格納されているコンピュータ読取可能な媒体であって、
前記プログラムはプロセッサにより実行されると、請求項1〜7のいずれか一項に記載の方法を実現させるコンピュータ読取可能な媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810587827.5A CN108737872A (zh) | 2018-06-08 | 2018-06-08 | 用于输出信息的方法和装置 |
CN201810587827.5 | 2018-06-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019216408A JP2019216408A (ja) | 2019-12-19 |
JP6855527B2 true JP6855527B2 (ja) | 2021-04-07 |
Family
ID=63932905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019047116A Active JP6855527B2 (ja) | 2018-06-08 | 2019-03-14 | 情報を出力するための方法、及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11006179B2 (ja) |
JP (1) | JP6855527B2 (ja) |
CN (1) | CN108737872A (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109700113A (zh) * | 2018-11-30 | 2019-05-03 | 迅捷安消防及救援科技(深圳)有限公司 | 智能头盔、消防救援方法及相关产品 |
CN109739354B (zh) * | 2018-12-28 | 2022-08-05 | 广州励丰文化科技股份有限公司 | 一种基于声音的多媒体交互方法及装置 |
CN109785859B (zh) * | 2019-01-31 | 2024-02-02 | 平安科技(深圳)有限公司 | 基于语音分析的管理音乐的方法、装置和计算机设备 |
CN109961793B (zh) * | 2019-02-20 | 2021-04-27 | 北京小米移动软件有限公司 | 处理语音信息的方法及装置 |
CN111599342A (zh) * | 2019-02-21 | 2020-08-28 | 北京京东尚科信息技术有限公司 | 音色选择方法和选择系统 |
CN111627417B (zh) * | 2019-02-26 | 2023-08-08 | 北京地平线机器人技术研发有限公司 | 播放语音的方法、装置及电子设备 |
CN111798857A (zh) * | 2019-04-08 | 2020-10-20 | 北京嘀嘀无限科技发展有限公司 | 一种信息识别方法、装置、电子设备及存储介质 |
CN109994117A (zh) * | 2019-04-09 | 2019-07-09 | 昆山古鳌电子机械有限公司 | 一种电子签名系统 |
CN110659412A (zh) * | 2019-08-30 | 2020-01-07 | 三星电子(中国)研发中心 | 用于在电子设备中提供个性化服务的方法和设备 |
CN110909243A (zh) * | 2019-11-27 | 2020-03-24 | 南京创维信息技术研究院有限公司 | 电视端内容推荐方法及装置 |
CN111061907B (zh) * | 2019-12-10 | 2023-06-20 | 腾讯科技(深圳)有限公司 | 媒体数据处理方法、装置及存储介质 |
CN111192587A (zh) * | 2019-12-27 | 2020-05-22 | 拉克诺德(深圳)科技有限公司 | 语音数据匹配方法、装置、计算机设备及存储介质 |
CN111081249A (zh) * | 2019-12-30 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种模式选择方法、装置及计算机可读存储介质 |
CN113495976A (zh) * | 2020-04-03 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 内容显示方法、装置、设备以及存储介质 |
CN111641875A (zh) * | 2020-05-21 | 2020-09-08 | 广州欢网科技有限责任公司 | 一种智能电视分析家庭成员的方法、装置和系统 |
CN111599353A (zh) * | 2020-06-04 | 2020-08-28 | 北京如影智能科技有限公司 | 基于语音的设备控制方法及装置 |
CN111785246B (zh) * | 2020-06-30 | 2024-06-18 | 联想(北京)有限公司 | 虚拟角色语音处理方法、装置及计算机设备 |
CN111862947A (zh) * | 2020-06-30 | 2020-10-30 | 百度在线网络技术(北京)有限公司 | 用于控制智能设备的方法、装置、电子设备和计算机存储介质 |
CN112002317B (zh) * | 2020-07-31 | 2023-11-14 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112148900A (zh) * | 2020-09-14 | 2020-12-29 | 联想(北京)有限公司 | 一种多媒体文件的显示方法及装置 |
CN112185344A (zh) * | 2020-09-27 | 2021-01-05 | 北京捷通华声科技股份有限公司 | 语音交互方法、装置、计算机可读存储介质和处理器 |
CN112423063A (zh) * | 2020-11-03 | 2021-02-26 | 深圳Tcl新技术有限公司 | 一种智能电视自动设置方法、装置及存储介质 |
CN112614478B (zh) * | 2020-11-24 | 2021-08-24 | 北京百度网讯科技有限公司 | 音频训练数据处理方法、装置、设备以及存储介质 |
CN114630171A (zh) * | 2020-12-11 | 2022-06-14 | 海信视像科技股份有限公司 | 显示设备以及配置切换方法 |
CN112954377B (zh) * | 2021-02-04 | 2023-07-28 | 广州繁星互娱信息科技有限公司 | 直播对战画面显示方法、直播对战方法及装置 |
KR20220130362A (ko) * | 2021-03-18 | 2022-09-27 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 컨텐츠의 태그 정보를 저장하는 방법 |
CN114339342A (zh) * | 2021-12-23 | 2022-04-12 | 歌尔科技有限公司 | 一种遥控器控制方法、遥控器、控制装置及介质 |
CN115831152B (zh) * | 2022-11-28 | 2023-07-04 | 国网山东省电力公司应急管理中心 | 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法 |
CN116055818A (zh) * | 2022-12-22 | 2023-05-02 | 北京奇艺世纪科技有限公司 | 视频播放方法、装置、电子设备及存储介质 |
Family Cites Families (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6144938A (en) * | 1998-05-01 | 2000-11-07 | Sun Microsystems, Inc. | Voice user interface with personality |
JP4432246B2 (ja) * | 2000-09-29 | 2010-03-17 | ソニー株式会社 | 観客状況判定装置、再生出力制御システム、観客状況判定方法、再生出力制御方法、記録媒体 |
US20120240045A1 (en) * | 2003-08-08 | 2012-09-20 | Bradley Nathaniel T | System and method for audio content management |
US7499104B2 (en) * | 2003-05-16 | 2009-03-03 | Pixel Instruments Corporation | Method and apparatus for determining relative timing of image and associated information |
JP3938104B2 (ja) * | 2003-06-19 | 2007-06-27 | ヤマハ株式会社 | アルペジオパターン設定装置およびプログラム |
JP2005157894A (ja) | 2003-11-27 | 2005-06-16 | Sony Corp | 情報処理装置、利用環境提供方法及び利用環境提供プログラム |
US20050289582A1 (en) * | 2004-06-24 | 2005-12-29 | Hitachi, Ltd. | System and method for capturing and using biometrics to review a product, service, creative work or thing |
US8036361B2 (en) * | 2004-12-17 | 2011-10-11 | Alcatel Lucent | Selection of ringback tone indicative of emotional state that is input by user of called communication device |
US20060229505A1 (en) * | 2005-04-08 | 2006-10-12 | Mundt James C | Method and system for facilitating respondent identification with experiential scaling anchors to improve self-evaluation of clinical treatment efficacy |
US20060287912A1 (en) * | 2005-06-17 | 2006-12-21 | Vinayak Raghuvamshi | Presenting advertising content |
US20100153885A1 (en) * | 2005-12-29 | 2010-06-17 | Rovi Technologies Corporation | Systems and methods for interacting with advanced displays provided by an interactive media guidance application |
US8374874B2 (en) * | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US20080260212A1 (en) * | 2007-01-12 | 2008-10-23 | Moskal Michael D | System for indicating deceit and verity |
WO2009067670A1 (en) * | 2007-11-21 | 2009-05-28 | Gesturetek, Inc. | Media preferences |
US9986293B2 (en) * | 2007-11-21 | 2018-05-29 | Qualcomm Incorporated | Device access control |
KR101644421B1 (ko) * | 2008-12-23 | 2016-08-03 | 삼성전자주식회사 | 사용자의 관심 정도에 기반한 컨텐츠 제공장치 및 방법 |
US9014546B2 (en) * | 2009-09-23 | 2015-04-21 | Rovi Guides, Inc. | Systems and methods for automatically detecting users within detection regions of media devices |
KR101636716B1 (ko) * | 2009-12-24 | 2016-07-06 | 삼성전자주식회사 | 발언자를 구별하는 영상 회의 장치 및 방법 |
JP5190560B2 (ja) * | 2010-05-28 | 2013-04-24 | 楽天株式会社 | コンテンツ出力装置、コンテンツ出力方法、コンテンツ出力プログラム、及びコンテンツ出力プログラムが記録された記録媒体 |
JP5542536B2 (ja) | 2010-06-15 | 2014-07-09 | 株式会社Nttドコモ | 情報処理装置及びダウンロード制御方法 |
US8959648B2 (en) * | 2010-10-01 | 2015-02-17 | Disney Enterprises, Inc. | Audio challenge for providing human response verification |
JP5841538B2 (ja) * | 2011-02-04 | 2016-01-13 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 関心度推定装置および関心度推定方法 |
WO2013018267A1 (ja) * | 2011-07-29 | 2013-02-07 | パナソニック株式会社 | 提示制御装置、及び提示制御方法 |
US20130173765A1 (en) * | 2011-12-29 | 2013-07-04 | United Video Properties, Inc. | Systems and methods for assigning roles between user devices |
US20130205314A1 (en) * | 2012-02-07 | 2013-08-08 | Arun Ramaswamy | Methods and apparatus to select media based on engagement levels |
JP6028351B2 (ja) * | 2012-03-16 | 2016-11-16 | ソニー株式会社 | 制御装置、電子機器、制御方法、及びプログラム |
CA2775700C (en) * | 2012-05-04 | 2013-07-23 | Microsoft Corporation | Determining a future portion of a currently presented media program |
US9699485B2 (en) * | 2012-08-31 | 2017-07-04 | Facebook, Inc. | Sharing television and video programming through social networking |
US9398335B2 (en) * | 2012-11-29 | 2016-07-19 | Qualcomm Incorporated | Methods and apparatus for using user engagement to provide content presentation |
US9996150B2 (en) * | 2012-12-19 | 2018-06-12 | Qualcomm Incorporated | Enabling augmented reality using eye gaze tracking |
US20140195918A1 (en) * | 2013-01-07 | 2014-07-10 | Steven Friedlander | Eye tracking user interface |
US10031637B2 (en) * | 2013-01-25 | 2018-07-24 | Lg Electronics Inc. | Image display apparatus and method for operating the same |
WO2014138352A1 (en) * | 2013-03-06 | 2014-09-12 | Zito Arthur J Jr | Multi-media presentation system |
US20160293167A1 (en) * | 2013-10-10 | 2016-10-06 | Google Inc. | Speaker recognition using neural networks |
US9401148B2 (en) * | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
US9516259B2 (en) * | 2013-10-22 | 2016-12-06 | Google Inc. | Capturing media content in accordance with a viewer expression |
US20150244747A1 (en) * | 2014-02-26 | 2015-08-27 | United Video Properties, Inc. | Methods and systems for sharing holographic content |
KR20150108028A (ko) * | 2014-03-16 | 2015-09-24 | 삼성전자주식회사 | 컨텐츠의 재생 제어 방법 및 이를 수행하기 위한 컨텐츠 재생 장치 |
US8874448B1 (en) * | 2014-04-01 | 2014-10-28 | Google Inc. | Attention-based dynamic audio level adjustment |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
JP6208631B2 (ja) | 2014-07-04 | 2017-10-04 | 日本電信電話株式会社 | 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム |
US10390064B2 (en) * | 2015-06-30 | 2019-08-20 | Amazon Technologies, Inc. | Participant rewards in a spectating system |
US9988055B1 (en) * | 2015-09-02 | 2018-06-05 | State Farm Mutual Automobile Insurance Company | Vehicle occupant monitoring using infrared imaging |
US10062100B2 (en) * | 2015-09-24 | 2018-08-28 | Adobe Systems Incorporated | Methods and systems for identifying visitors to real-world shopping venues as belonging to a group |
US9787940B2 (en) * | 2015-10-05 | 2017-10-10 | Mutualink, Inc. | Video management defined embedded voice communication groups |
CN105979376A (zh) * | 2015-12-02 | 2016-09-28 | 乐视致新电子科技(天津)有限公司 | 一种推荐方法和装置 |
WO2017119604A1 (ko) * | 2016-01-08 | 2017-07-13 | 주식회사 아이플래테아 | 시청률 산출 서버, 시청률 산출 방법, 및 시청률 산출 리모트 장치 |
US10685383B2 (en) * | 2016-02-05 | 2020-06-16 | Adobe Inc. | Personalizing experiences for visitors to real-world venues |
US10217261B2 (en) * | 2016-02-18 | 2019-02-26 | Pinscreen, Inc. | Deep learning-based facial animation for head-mounted display |
JP6721365B2 (ja) | 2016-03-11 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム |
CN105959806A (zh) | 2016-05-25 | 2016-09-21 | 乐视控股(北京)有限公司 | 节目推荐方法及装置 |
US10152969B2 (en) * | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
GB2555192B (en) * | 2016-08-02 | 2021-11-24 | Invincea Inc | Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space |
US20180075763A1 (en) * | 2016-09-15 | 2018-03-15 | S. Lynne Wainfan | System and method of generating recommendations to alleviate loneliness |
US10339925B1 (en) * | 2016-09-26 | 2019-07-02 | Amazon Technologies, Inc. | Generation of automated message responses |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
US10163003B2 (en) * | 2016-12-28 | 2018-12-25 | Adobe Systems Incorporated | Recognizing combinations of body shape, pose, and clothing in three-dimensional input images |
US20180189647A1 (en) * | 2016-12-29 | 2018-07-05 | Google, Inc. | Machine-learned virtual sensor model for multiple sensors |
US20180225083A1 (en) * | 2017-02-03 | 2018-08-09 | Scratchvox Inc. | Methods, systems, and computer-readable storage media for enabling flexible sound generation/modifying utilities |
US10678846B2 (en) * | 2017-03-10 | 2020-06-09 | Xerox Corporation | Instance-level image retrieval with a region proposal network |
US10642830B2 (en) * | 2017-06-12 | 2020-05-05 | Google Llc | Context aware chat history assistance using machine-learned models |
CN109146450A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 支付方法、客户端、电子设备、存储介质和服务器 |
US10579401B2 (en) * | 2017-06-21 | 2020-03-03 | Rovi Guides, Inc. | Systems and methods for providing a virtual assistant to accommodate different sentiments among a group of users by correlating or prioritizing causes of the different sentiments |
CN107507612B (zh) * | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
US11159856B2 (en) * | 2017-07-10 | 2021-10-26 | Sony Interactive Entertainment LLC | Non-linear content presentation and experience |
US10904615B2 (en) * | 2017-09-07 | 2021-01-26 | International Business Machines Corporation | Accessing and analyzing data to select an optimal line-of-sight and determine how media content is distributed and displayed |
CN107623614B (zh) * | 2017-09-19 | 2020-12-08 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107767869B (zh) * | 2017-09-26 | 2021-03-12 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
US10452958B2 (en) * | 2017-10-06 | 2019-10-22 | Mitsubishi Electric Research Laboratories, Inc. | System and method for image comparison based on hyperplanes similarity |
CN107659849A (zh) * | 2017-11-03 | 2018-02-02 | 中广热点云科技有限公司 | 一种推荐节目的方法及系统 |
US10425247B2 (en) * | 2017-12-12 | 2019-09-24 | Rovi Guides, Inc. | Systems and methods for modifying playback of a media asset in response to a verbal command unrelated to playback of the media asset |
US10664999B2 (en) * | 2018-02-15 | 2020-05-26 | Adobe Inc. | Saliency prediction for a mobile user interface |
US11210375B2 (en) * | 2018-03-07 | 2021-12-28 | Private Identity Llc | Systems and methods for biometric processing with liveness |
-
2018
- 2018-06-08 CN CN201810587827.5A patent/CN108737872A/zh active Pending
-
2019
- 2019-03-08 US US16/297,230 patent/US11006179B2/en active Active
- 2019-03-14 JP JP2019047116A patent/JP6855527B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019216408A (ja) | 2019-12-19 |
CN108737872A (zh) | 2018-11-02 |
US20190379941A1 (en) | 2019-12-12 |
US11006179B2 (en) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6855527B2 (ja) | 情報を出力するための方法、及び装置 | |
JP2019212288A (ja) | 情報を出力するための方法、及び装置 | |
JP6876752B2 (ja) | 応答方法及び装置 | |
US20200126566A1 (en) | Method and apparatus for voice interaction | |
US7349848B2 (en) | Communication apparatus and system acting on speaker voices | |
US20170140260A1 (en) | Content filtering with convolutional neural networks | |
CN103943104A (zh) | 一种语音信息识别的方法及终端设备 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
JP2020004381A (ja) | 情報プッシュ方法及び装置 | |
JP7453712B2 (ja) | オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器 | |
CN113691909B (zh) | 具有音频处理推荐的数字音频工作站 | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
CN112102846A (zh) | 音频处理方法、装置、电子设备以及存储介质 | |
CN111428078B (zh) | 音频指纹编码方法、装置、计算机设备及存储介质 | |
CN113573161A (zh) | 多媒体数据处理方法、装置、设备及存储介质 | |
CN111147871B (zh) | 直播间歌唱识别方法、装置及服务器、存储介质 | |
CN111816170A (zh) | 一种音频分类模型的训练和垃圾音频识别方法和装置 | |
CN111883139A (zh) | 用于筛选目标语音的方法、装置、设备和介质 | |
CN108322770A (zh) | 视频节目识别方法、相关装置、设备和系统 | |
CN111081249A (zh) | 一种模式选择方法、装置及计算机可读存储介质 | |
CN113707183A (zh) | 一种视频中的音频处理方法及装置 | |
US20230260527A1 (en) | Audio data processing method and apparatus, device, and medium | |
CN111859008A (zh) | 一种推荐音乐的方法及终端 | |
CN111916074A (zh) | 一种跨设备语音控制方法、系统、终端及存储介质 | |
CN110289010B (zh) | 一种声音采集的方法、装置、设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190509 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210309 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210317 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6855527 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |