JP2019527371A - 声紋識別方法及び装置 - Google Patents
声紋識別方法及び装置 Download PDFInfo
- Publication number
- JP2019527371A JP2019527371A JP2018546525A JP2018546525A JP2019527371A JP 2019527371 A JP2019527371 A JP 2019527371A JP 2018546525 A JP2018546525 A JP 2018546525A JP 2018546525 A JP2018546525 A JP 2018546525A JP 2019527371 A JP2019527371 A JP 2019527371A
- Authority
- JP
- Japan
- Prior art keywords
- user
- command
- voice
- voiceprint
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
(1)技術依存性が非常に強いことであり、つまり、一般、技術が非常に高い精度に達成されるまでに製品化しないが、技術の発展が長い過程である。
(2)策略が単一であり、つまり、既に声紋技術を使用したものは、声紋の使用策略があまり単一であり、策略によって技術不足を補う提案がない。
(3)製品化の程度が低いことであり、つまり、策略が単一で、技術的能力が十分でないという影響によって、製品の設計が制限され、声紋が基本的な機能のみに使用されており、既に製品化されても、非常に狭いシーン、例えば、特定の音声によって装置を覚醒させることしかに使用できなく、カスタイズサービスを提供するためではなく、声紋技術が深く製品化されていない。
本願の1つの態様に係る声紋識別方法は、
取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別することと、
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別することと、
前記ユーザ類別及び命令に基づいて資源を提供することと、を含む。
前記態様及びいずれか1項の可能な実現方式によって、更に1つの実現方式を提供し、つまり、
前記取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別する前に、
異なるユーザ類別の音声特徴に基づいて、モデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成すること、を更に含む。
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別する前に、
異なるユーザ類別の口語化特徴を有するコーパスを収集してコーパス庫を形成し、前記コーパス庫を利用して音声識別モデル訓練を行って、ユーザ類別に対応する音声識別モデルを得ること、を更に含む。
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示することと、を含む。
前記態様及びいずれか1項の可能な実現方式によって、更に1つの実現方式を提供し、つまり、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することは、
前記命令に基づいて、現在の垂直分野を確定することと、
現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得することと、を含む。
前記属性情報は、ユーザ年齢層及びユーザ性別の中の少なくとも1つを含む。
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索する前に、
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得することと、
ユーザ類別及び垂直分野に従ってユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得ることと、を更に含む。
取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別するための声紋識別モジュールと、
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別するための音声識別モジュールと、
前記ユーザ類別及び命令に基づいて資源を提供するための提供モジュールと、を含む。
前記態様及びいずれか1項の可能な実現方式によって、更に1つの実現方式を提供し、つまり、前記声紋識別モジュールは、
異なるユーザ類別の音声特徴に基づいて、モデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成するための声紋処理モデル作成サブモジュール、を更に含む。
異なるユーザ類別の口語化特徴を有するコーパスを収集してコーパス庫を形成し、前記コーパス庫を利用して音声識別モデル訓練を行って、ユーザ類別に対応する音声識別モデルを得るための音声識別モデル作成サブモジュール、を更に含む。
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索するための捜索サブモジュールと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示するための表示サブモジュールと、を含む。
前記命令に基づいて、現在の垂直分野を確定するための垂直分野確定サブモジュールと、
現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得するための内容取得サブモジュールと、をさらに含む。
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得し、ユーザ類別及び垂直分野に従ってユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得るためのユーザ興味モデル作成サブモジュール、を更に含む。
1つ又は複数のプロセッサと
1つ又は複数のプログラムを記憶するための記憶装置と、を含み
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行される時、前記1つ又は複数のプロセッサに上記いずれか1項に記載の方法を実現させる。
音楽という垂直分野において、ユーザが「歌を歌う」等の普通な命令を発出すると、ユーザが女性であると識別したら、柔らかでロマンチック等のタイプの音楽を推薦し、男性であると識別したら、ロックンロールで情熱等のタイプの音楽を推薦し、老人であると識別したら、演劇等の音楽を推薦し、子供であると識別したら、子供の歌等のタイプの音楽を再生することができ、また、年齢及び性別を組み合わせて、少年及び少女については、異なるタイプの子供の歌を推薦することができる。
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索するための捜索サブモジュールと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示するための表示サブモジュールとを含む。
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得し、
ユーザ類別及び垂直分野に従って、ユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得る。
音楽という垂直分野において、ユーザが「歌を歌う」等の普通な命令を発出すると、ユーザが女性であると識別したら、柔らかでロマンチック等のタイプの音楽を推薦し、男性であると識別したら、ロックンロールで情熱等のタイプの音楽を推薦し、老人であると識別したら、演劇等の音楽を推薦し、子供であると識別したら、子供の歌等のタイプの音楽を再生することができ、また、年齢及び性別を組み合わせて、少年及び少女については、異なるタイプの子供の歌を推薦することができる。
Claims (18)
- 声紋識別方法であって、
取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別することと、
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別することと、
前記ユーザ類別及び命令に基づいて資源を提供することと、を含む
声紋識別方法。 - 前記ユーザ類別は、ユーザ性別及びユーザ年齢層を含む
請求項1に記載の声紋識別方法。 - 前記取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別する前に、
異なるユーザ類別の音声特徴に基づいて、モデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成すること、を更に含む
請求項1又は2に記載の声紋識別方法。 - 命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別する前に、
異なるユーザ類別の口語化特徴を有するコーパスを収集してコーパス庫を形成し、前記コーパス庫を利用して音声識別モデル訓練を行って、ユーザ類別に対応する音声識別モデルを得ること、を更に含む
請求項1、2又は3のいずれか1項に記載の声紋識別方法。 - 前記ユーザ類別及び命令に基づいて資源を提供することは、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示することと、を含む
請求項1から4のいずれか1項に記載の声紋識別方法。 - 前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索することは、
前記命令に基づいて、現在の垂直分野を確定することと、
現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得することと、を含む
請求項5に記載の声紋識別方法。 - 前記属性情報は、ユーザ年齢層及びユーザ性別の中の少なくとも1つを含む
請求項6に記載の声紋識別方法。 - 前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索する前に、
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得することと、
ユーザ類別及び垂直分野に従ってユーザ行動履歴データを分類統計して、ユーザ興味モデルを得ることと、を更に含む
請求項5に記載の声紋識別方法。 - 声紋識別装置であって、
取得された命令音声に基づいて、声紋識別によって命令音声を発出したユーザのユーザ類別を識別するための声紋識別モジュールと、
命令音声に記述された命令を得るように、前記ユーザ類別に基づいて、対応する音声識別モデルを採用して命令音声を音声識別するための音声識別モジュールと、
前記ユーザ類別及び命令に基づいて資源を提供するための提供モジュールと、を含む
声紋識別装置。 - 前記ユーザ類別は、ユーザ性別及びユーザ年齢層を含む
請求項9に記載の声紋識別装置。 - 前記声紋識別モジュールは、
異なるユーザ類別の音声特徴に基づいて、モデル訓練を行って、異なるユーザ類別の声紋処理モデルを作成するための声紋処理モデル作成サブモジュール、を更に含む
請求項9又は10に記載の声紋識別装置。 - 前記音声識別モジュールは、
異なるユーザ類別の口語化特徴を有するコーパスを収集してコーパス庫を形成し、前記コーパス庫を利用して音声識別モデル訓練を行って、ユーザ類別に対応する音声識別モデルを得るための音声識別モデル作成サブモジュール、を更に含む
請求項9、10又は11のいずれか1項に記載の声紋識別装置。 - 前記提供モジュールは、
前記ユーザ類別に基づいて、前記命令にマッチングする推薦興味類別を捜索するための捜索サブモジュールと、
前記推薦興味類別にマッチングする目標資源を検索し、前記目標資源をユーザに表示するための表示サブモジュールと、を含む
請求項9から12のいずれか1項に記載の声紋識別装置。 - 前記捜索サブモジュールは、
前記命令に基づいて、現在の垂直分野を確定するための垂直分野確定サブモジュールと、
現在の垂直分野及び前記ユーザの属性情報に基づいて、予め作成されたユーザ興味モデルを利用して、前記命令にマッチングする推薦興味類別を取得するための内容取得サブモジュールと、を含む
請求項13に記載の声紋識別装置。 - 前記属性情報は、ユーザ年齢層及びユーザ性別の中の少なくとも1つを含む
請求項14に記載の声紋識別装置。 - 前記捜索サブモジュールは、
少なくともユーザ標識、ユーザ属性情報及びユーザ行動履歴データを含むユーザ履歴ログを取得し、ユーザ類別及び垂直分野に従ってユーザ行動履歴データを分類統計して、前記ユーザ興味モデルを得るためのユーザ興味モデル作成サブモジュール、を更に含む
請求項14に記載の声紋識別装置。 - 設備であって、
1つ又は複数のプロセッサと
1つ又は複数のプログラムを記憶するための記憶装置と、を含み
前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行される時、前記1つ又は複数のプロセッサに請求項1〜8のいずれか1項に記載の声紋識別方法を実現させる
設備。 - プロセッサによって実行される時、請求項1〜8のいずれか1項に記載の声紋識別方法を実現する
プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710525251.5 | 2017-06-30 | ||
CN201710525251.5A CN107507612B (zh) | 2017-06-30 | 2017-06-30 | 一种声纹识别方法及装置 |
PCT/CN2018/077359 WO2019000991A1 (zh) | 2017-06-30 | 2018-02-27 | 一种声纹识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019527371A true JP2019527371A (ja) | 2019-09-26 |
JP6711500B2 JP6711500B2 (ja) | 2020-06-17 |
Family
ID=60679818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018546525A Active JP6711500B2 (ja) | 2017-06-30 | 2018-02-27 | 声紋識別方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11302337B2 (ja) |
JP (1) | JP6711500B2 (ja) |
CN (1) | CN107507612B (ja) |
WO (1) | WO2019000991A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7413521B2 (ja) | 2019-10-28 | 2024-01-15 | エーアイ スピーチ カンパニー リミテッド | ヒューマンマシン対話モードの切り替え方法 |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107507612B (zh) * | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN108305623A (zh) * | 2018-01-15 | 2018-07-20 | 珠海格力电器股份有限公司 | 电器控制方法及装置 |
CN110046898B (zh) * | 2018-01-17 | 2022-01-25 | 苏州君林智能科技有限公司 | 账户信息的分组方法、装置及支付方法、装置 |
CN108492836A (zh) * | 2018-03-29 | 2018-09-04 | 努比亚技术有限公司 | 一种基于语音的搜索方法、移动终端及存储介质 |
US10573298B2 (en) * | 2018-04-16 | 2020-02-25 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
CN108899033B (zh) * | 2018-05-23 | 2021-09-10 | 出门问问信息科技有限公司 | 一种确定说话人特征的方法及装置 |
CN110619870B (zh) * | 2018-06-04 | 2022-05-06 | 佛山市顺德区美的电热电器制造有限公司 | 一种人机对话方法、装置、家用电器和计算机存储介质 |
CN108881649B (zh) * | 2018-06-08 | 2020-11-13 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
CN108737872A (zh) * | 2018-06-08 | 2018-11-02 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN108882014A (zh) * | 2018-06-13 | 2018-11-23 | 成都市极米科技有限公司 | 智能电视儿童桌面的管理方法、管理装置和可读存储介质 |
CN108962223A (zh) * | 2018-06-25 | 2018-12-07 | 厦门快商通信息技术有限公司 | 一种基于深度学习的语音性别识别方法、设备及介质 |
CN108831487B (zh) * | 2018-06-28 | 2020-08-18 | 深圳大学 | 声纹识别方法、电子装置及计算机可读存储介质 |
CN108933730A (zh) * | 2018-06-29 | 2018-12-04 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN108924218B (zh) * | 2018-06-29 | 2020-02-18 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN109271585B (zh) * | 2018-08-30 | 2021-06-01 | 广东小天才科技有限公司 | 一种信息推送方法及家教设备 |
CN109119071A (zh) * | 2018-09-26 | 2019-01-01 | 珠海格力电器股份有限公司 | 一种语音识别模型的训练方法及装置 |
CN109582822A (zh) * | 2018-10-19 | 2019-04-05 | 百度在线网络技术(北京)有限公司 | 一种基于用户语音的音乐推荐方法及装置 |
CN111290570A (zh) * | 2018-12-10 | 2020-06-16 | 中国移动通信集团终端有限公司 | 人工智能设备的控制方法、装置、设备及介质 |
CN109462603A (zh) * | 2018-12-14 | 2019-03-12 | 平安城市建设科技(深圳)有限公司 | 基于盲检测的声纹认证方法、设备、存储介质及装置 |
CN109671438A (zh) * | 2019-01-28 | 2019-04-23 | 武汉恩特拉信息技术有限公司 | 一种利用语音提供辅助服务的装置及方法 |
CN111724797A (zh) * | 2019-03-22 | 2020-09-29 | 比亚迪股份有限公司 | 基于图像和声纹识别的语音控制方法、系统和车辆 |
CN111859008B (zh) * | 2019-04-29 | 2023-11-10 | 深圳市冠旭电子股份有限公司 | 一种推荐音乐的方法及终端 |
CN110166560B (zh) * | 2019-05-24 | 2021-08-20 | 北京百度网讯科技有限公司 | 一种服务配置方法、装置、设备及存储介质 |
CN110188171A (zh) * | 2019-05-30 | 2019-08-30 | 上海联影医疗科技有限公司 | 一种语音搜索方法、装置、电子设备及存储介质 |
CN110570843B (zh) * | 2019-06-28 | 2021-03-05 | 北京蓦然认知科技有限公司 | 一种用户语音识别方法和装置 |
CN110335626A (zh) * | 2019-07-09 | 2019-10-15 | 北京字节跳动网络技术有限公司 | 基于音频的年龄识别方法及装置、存储介质 |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
CN112331193A (zh) * | 2019-07-17 | 2021-02-05 | 华为技术有限公司 | 语音交互方法及相关装置 |
CN110336723A (zh) * | 2019-07-23 | 2019-10-15 | 珠海格力电器股份有限公司 | 智能家电的控制方法及装置、智能家电设备 |
JP6977004B2 (ja) * | 2019-08-23 | 2021-12-08 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
CN110600033B (zh) * | 2019-08-26 | 2022-04-05 | 北京大米科技有限公司 | 学习情况的评估方法、装置、存储介质及电子设备 |
CN112530418A (zh) * | 2019-08-28 | 2021-03-19 | 北京声智科技有限公司 | 一种语音唤醒方法、装置及相关设备 |
CN110534099B (zh) * | 2019-09-03 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN110503961B (zh) * | 2019-09-03 | 2023-03-14 | 北京字节跳动网络技术有限公司 | 音频识别方法、装置、存储介质及电子设备 |
CN110689886B (zh) * | 2019-09-18 | 2021-11-23 | 深圳云知声信息技术有限公司 | 设备控制方法及装置 |
CN112581950A (zh) * | 2019-09-29 | 2021-03-30 | 广东美的制冷设备有限公司 | 空调器的语音控制方法、装置及存储介质 |
CN110990685B (zh) * | 2019-10-12 | 2023-05-26 | 中国平安财产保险股份有限公司 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
CN110753254A (zh) * | 2019-10-30 | 2020-02-04 | 四川长虹电器股份有限公司 | 应用于智能语音电视声纹支付的声纹注册方法 |
CN110660393B (zh) * | 2019-10-31 | 2021-12-03 | 广东美的制冷设备有限公司 | 语音交互方法、装置、设备及存储介质 |
CN111023470A (zh) * | 2019-12-06 | 2020-04-17 | 厦门快商通科技股份有限公司 | 空调温度调节方法、介质、设备及装置 |
CN111081249A (zh) * | 2019-12-30 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 一种模式选择方法、装置及计算机可读存储介质 |
CN111274819A (zh) * | 2020-02-13 | 2020-06-12 | 北京声智科技有限公司 | 资源获取方法及装置 |
CN111489756B (zh) * | 2020-03-31 | 2024-03-01 | 中国工商银行股份有限公司 | 一种声纹识别方法及装置 |
CN111326163B (zh) * | 2020-04-15 | 2023-02-14 | 厦门快商通科技股份有限公司 | 一种声纹识别方法和装置以及设备 |
CN112002346A (zh) * | 2020-08-20 | 2020-11-27 | 深圳市卡牛科技有限公司 | 基于语音的性别年龄识别方法、装置、设备和存储介质 |
AU2020466253A1 (en) | 2020-09-07 | 2023-04-20 | Kiwip Technologies Sas | Secure communication system with speaker recognition by voice biometrics for user groups such as family groups |
CN112163081A (zh) * | 2020-10-14 | 2021-01-01 | 网易(杭州)网络有限公司 | 标签确定方法、装置、介质及电子设备 |
CN114449312A (zh) * | 2020-11-04 | 2022-05-06 | 深圳Tcl新技术有限公司 | 一种视频播放控制方法、装置、终端设备及存储介质 |
CN112584238A (zh) * | 2020-12-09 | 2021-03-30 | 深圳创维-Rgb电子有限公司 | 影视资源匹配方法、装置及智能电视 |
CN112733025A (zh) * | 2021-01-06 | 2021-04-30 | 天津五八到家货运服务有限公司 | 用户数据服务系统、用户数据处理方法、设备和存储介质 |
CN113938755A (zh) * | 2021-09-18 | 2022-01-14 | 海信视像科技股份有限公司 | 服务器、终端设备以及资源推荐方法 |
CN116994565B (zh) * | 2023-09-26 | 2023-12-15 | 深圳琪乐科技有限公司 | 一种智能语音助手及其语音控制方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003115951A (ja) * | 2001-10-09 | 2003-04-18 | Casio Comput Co Ltd | 話題情報提供システムおよび話題情報提供方法 |
JP2009271785A (ja) * | 2008-05-08 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 情報提供方法及び装置及びコンピュータ読み取り可能な記録媒体 |
JP2013164642A (ja) * | 2012-02-09 | 2013-08-22 | Nikon Corp | 検索手段制御装置、検索結果出力装置及びプログラム |
JP2014164067A (ja) * | 2013-02-25 | 2014-09-08 | Seiko Epson Corp | 音声認識装置及び方法、並びに、半導体集積回路装置 |
WO2015029379A1 (ja) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 機器制御方法、表示制御方法及び購入決済方法 |
CN105045889A (zh) * | 2015-07-29 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 一种信息推送方法及装置 |
JP2016071050A (ja) * | 2014-09-29 | 2016-05-09 | シャープ株式会社 | 音声対話装置、音声対話システム、端末、音声対話方法およびコンピュータを音声対話装置として機能させるためのプログラム |
CN106548773A (zh) * | 2016-11-04 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的儿童用户搜索方法及装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040190688A1 (en) * | 2003-03-31 | 2004-09-30 | Timmins Timothy A. | Communications methods and systems using voiceprints |
KR100755678B1 (ko) * | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
DE602005015984D1 (de) * | 2005-11-25 | 2009-09-24 | Swisscom Ag | Verfahren zur Personalisierung eines Dienstes |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
CN101441869A (zh) * | 2007-11-21 | 2009-05-27 | 联想(北京)有限公司 | 语音识别终端用户身份的方法及终端 |
US20120042020A1 (en) * | 2010-08-16 | 2012-02-16 | Yahoo! Inc. | Micro-blog message filtering |
CN102142254A (zh) * | 2011-03-25 | 2011-08-03 | 北京得意音通技术有限责任公司 | 基于声纹识别和语音识别的防录音假冒的身份确认方法 |
US8930187B2 (en) * | 2012-01-03 | 2015-01-06 | Nokia Corporation | Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
CN105068661B (zh) * | 2015-09-07 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN105426436B (zh) * | 2015-11-05 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能机器人的信息提供方法和装置 |
US11113714B2 (en) * | 2015-12-30 | 2021-09-07 | Verizon Media Inc. | Filtering machine for sponsored content |
CN106557410B (zh) * | 2016-10-25 | 2019-05-31 | 北京百度网讯科技有限公司 | 基于人工智能的用户行为分析方法和装置 |
US9812151B1 (en) * | 2016-11-18 | 2017-11-07 | IPsoft Incorporated | Generating communicative behaviors for anthropomorphic virtual agents based on user's affect |
CN107507612B (zh) * | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
-
2017
- 2017-06-30 CN CN201710525251.5A patent/CN107507612B/zh active Active
-
2018
- 2018-02-27 WO PCT/CN2018/077359 patent/WO2019000991A1/zh active Application Filing
- 2018-02-27 US US16/300,444 patent/US11302337B2/en active Active
- 2018-02-27 JP JP2018546525A patent/JP6711500B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003115951A (ja) * | 2001-10-09 | 2003-04-18 | Casio Comput Co Ltd | 話題情報提供システムおよび話題情報提供方法 |
JP2009271785A (ja) * | 2008-05-08 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 情報提供方法及び装置及びコンピュータ読み取り可能な記録媒体 |
JP2013164642A (ja) * | 2012-02-09 | 2013-08-22 | Nikon Corp | 検索手段制御装置、検索結果出力装置及びプログラム |
JP2014164067A (ja) * | 2013-02-25 | 2014-09-08 | Seiko Epson Corp | 音声認識装置及び方法、並びに、半導体集積回路装置 |
WO2015029379A1 (ja) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 機器制御方法、表示制御方法及び購入決済方法 |
JP2016071050A (ja) * | 2014-09-29 | 2016-05-09 | シャープ株式会社 | 音声対話装置、音声対話システム、端末、音声対話方法およびコンピュータを音声対話装置として機能させるためのプログラム |
CN105045889A (zh) * | 2015-07-29 | 2015-11-11 | 百度在线网络技术(北京)有限公司 | 一种信息推送方法及装置 |
CN106548773A (zh) * | 2016-11-04 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的儿童用户搜索方法及装置 |
Non-Patent Citations (1)
Title |
---|
西井俊介,外2名: "日本語話し言葉コーパスを用いた異なるタスクに対する音声認識", 日本音響学会講演論文集, JPN6019040094, 10 March 2010 (2010-03-10), JP, pages 27 - 28, ISSN: 0004136863 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7413521B2 (ja) | 2019-10-28 | 2024-01-15 | エーアイ スピーチ カンパニー リミテッド | ヒューマンマシン対話モードの切り替え方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107507612B (zh) | 2020-08-28 |
CN107507612A (zh) | 2017-12-22 |
US11302337B2 (en) | 2022-04-12 |
JP6711500B2 (ja) | 2020-06-17 |
US20210225380A1 (en) | 2021-07-22 |
WO2019000991A1 (zh) | 2019-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6711500B2 (ja) | 声紋識別方法及び装置 | |
CN107481720B (zh) | 一种显式声纹识别方法及装置 | |
US8972265B1 (en) | Multiple voices in audio content | |
KR102333505B1 (ko) | 소셜 대화형 입력들에 대한 컴퓨터 응답 생성 | |
JP6876752B2 (ja) | 応答方法及び装置 | |
US20180342251A1 (en) | Automatic speaker identification in calls using multiple speaker-identification parameters | |
US20210158790A1 (en) | Autonomous generation of melody | |
WO2019000832A1 (zh) | 一种声纹创建与注册方法及装置 | |
Mariooryad et al. | Building a naturalistic emotional speech corpus by retrieving expressive behaviors from existing speech corpora | |
CN109582822A (zh) | 一种基于用户语音的音乐推荐方法及装置 | |
JP2021009701A (ja) | インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム | |
US11842278B2 (en) | Object detector trained via self-supervised training on raw and unlabeled videos | |
US10460731B2 (en) | Apparatus, method, and non-transitory computer readable storage medium thereof for generating control instructions based on text | |
US9684908B2 (en) | Automatically generated comparison polls | |
US11881209B2 (en) | Electronic device and control method | |
US20200013389A1 (en) | Word extraction device, related conference extraction system, and word extraction method | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
JP6927318B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
Kaushik et al. | Automatic sentiment detection in naturalistic audio | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
US20180374512A1 (en) | Method to automate media stream curation utilizing speech and non-speech audio cue analysis | |
KR102226427B1 (ko) | 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법 | |
CN111090769A (zh) | 一种歌曲推荐的方法、装置、设备和计算机存储介质 | |
WO2021200502A1 (ja) | 情報処理装置及び情報処理方法 | |
CN117529773A (zh) | 用户自主个性化文本转语音的声音生成 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200515 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6711500 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |