JP6968908B2 - コンテキスト取得方法及びコンテキスト取得デバイス - Google Patents
コンテキスト取得方法及びコンテキスト取得デバイス Download PDFInfo
- Publication number
- JP6968908B2 JP6968908B2 JP2019563817A JP2019563817A JP6968908B2 JP 6968908 B2 JP6968908 B2 JP 6968908B2 JP 2019563817 A JP2019563817 A JP 2019563817A JP 2019563817 A JP2019563817 A JP 2019563817A JP 6968908 B2 JP6968908 B2 JP 6968908B2
- Authority
- JP
- Japan
- Prior art keywords
- conversation
- voice
- user
- face
- facial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
- G06V40/173—Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1831—Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42221—Conversation recording systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
- H04M3/569—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/10—Multimedia information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/50—Telephonic communication in combination with video communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/30—Aspects of automatic or semi-automatic exchanges related to audio recordings in general
- H04M2203/301—Management of recordings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/60—Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
- H04M2203/6045—Identity confirmation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/60—Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
- H04M2203/6054—Biometric subscriber identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/567—Multimedia conference systems
Description
本発明の実施例は音声対話技術に関し、特に音声対話に基づくコンテキスト取得方法及びコンテキスト取得デバイスに関する。
Claims (18)
- 端末に適用される音声対話に基づくコンテキスト取得方法であって、
画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出するステップと、
各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると確定すると、前記顔データベースから前記第2顔の特徴に対応したユーザーアイデンティティを取得し、前記第1顔の特徴は前記本回の会話のユーザーの顔の特徴であり、前記第2顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるステップと、
音声データベースに前記ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断し、前記音声データベースに前記ユーザーアイデンティティに対応した前記記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶するステップと、を含むことを特徴とする音声対話に基づくコンテキスト取得方法。 - 各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在しないと確定すると、前記方法は、
前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーのユーザーアイデンティティを生成するステップ、及び
音声終了点を検出した時に、前記本回の会話と前記ターゲットユーザーのユーザーアイデンティティを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記ターゲットユーザーのユーザーアイデンティティとを顔データベースに関連付けストレージするステップを更に含むことを特徴とする請求項1に記載のコンテキスト取得方法。 - 前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定する前記ステップは、
前記ユーザーアイデンティティに従って前記音声データベースから前記ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び
前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定することを含むことを特徴とする請求項1に記載のコンテキスト取得方法。 - 前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと確定すると、前記方法は、
前記音声データベースから関連付けストレージされた前記ユーザーアイデンティティと対応した記憶された会話を削除するステップを更に含むことを特徴とする請求項3に記載のコンテキスト取得方法。 - 前記方法は、
前記顔データベースにおける予め設定された期間内でマッチされないユーザーアイデンティティ及び対応した顔の特徴を削除するステップを更に含むことを特徴とする請求項1に記載のコンテキスト取得方法。 - 前記シーン画像における各ユーザーの顔の特徴を抽出する前記ステップは、
前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び
複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することを含むことを特徴とする請求項1に記載のコンテキスト取得方法。 - 前記複数の顔領域を予め設定された顔の特徴モデルに順次に入力する前記ステップの前に、前記方法は、
顔トレーニングサンプルを取得し、前記顔トレーニングサンプルは顔写真とラベルとを含むステップと、
前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むステップと、
前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得するステップと、を更に含むことを特徴とする請求項6に記載のコンテキスト取得方法。 - 前記顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、前記特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含むことを特徴とする請求項7に記載のコンテキスト取得方法。
- 端末に適用される音声対話に基づくコンテキスト取得デバイスであって、
画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出することに用いられる抽出モジュールと、
各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると確定すると、前記顔データベースから前記第2顔の特徴に対応したユーザーアイデンティティを取得することに用いられ、前記第1顔の特徴は前記本回の会話のユーザーの顔の特徴であり、前記第2顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるマッチモジュールと、
音声データベースに前記ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断し、前記音声データベースに前記ユーザーアイデンティティに対応した前記記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶することに用いられる取得モジュール、とを含むことを特徴とする音声対話に基づくコンテキスト取得デバイス。 - 前記マッチモジュールは更に、
各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在しないと確定すると、前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーのユーザーアイデンティティを生成すること、及び
音声終了点を検出した時に、前記本回の会話と前記ターゲットユーザーのユーザーアイデンティティを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記ターゲットユーザーのユーザーアイデンティティとを顔データベースに関連付けストレージすることに用いられることを特徴とする請求項9に記載のコンテキスト取得デバイス。 - 前記取得モジュールは具体的に、
前記ユーザーアイデンティティに従って前記音声データベースから前記ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び
前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定することに用いられることを特徴とする請求項9に記載のコンテキスト取得デバイス。 - 前記取得モジュールは更に、
前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと確定すると、前記音声データベースから関連付けストレージされた前記ユーザーアイデンティティと対応した記憶された会話を削除することに用いられることを特徴とする請求項11に記載のコンテキスト取得デバイス。 - 前記マッチモジュールは更に、
前記顔データベースにおける予め設定された期間内でマッチされないユーザーアイデンティティ及び対応した顔の特徴を削除することに用いられることを特徴とする請求項9に記載のコンテキスト取得デバイス。 - 前記抽出モジュールは具体的に、
前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び
複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することに用いられることを特徴とする請求項9に記載のコンテキスト取得デバイス。 - モデリングモジュールを更に備え、
前記モデリングモジュールは、前記複数の顔領域を予め設定された顔の特徴モデルに順次に入力する前に、
顔トレーニングサンプルを取得し、前記顔トレーニングサンプルは顔写真とラベルとを含むこと、
前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むこと、及び
前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得することに用いられることを特徴とする請求項14に記載のコンテキスト取得デバイス。 - 前記顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、前記特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含むことを特徴とする請求項15に記載のコンテキスト取得デバイス。
- 音声対話に基づくコンテキスト取得デバイスであって、少なくとも1つのプロセッサとメモリを含み、
前記メモリはコンピュータープログラムを記憶し、
前記少なくとも1つのプロセッサは前記メモリに記憶された前記コンピュータープログラムを実行し、前記少なくとも1つのプロセッサに請求項1〜8のいずれか1項に記載の音声対話に基づくコンテキスト取得方法を実行させることを特徴とする音声対話に基づくコンテキスト取得デバイス。 - コンピューター読み取り可能な記憶媒体であって、
前記コンピューター読み取り可能な記憶媒体にコンピュータープログラムが記憶され、プロセッサは前記コンピュータープログラムを実行する際に、請求項1〜8のいずれか1項に記載の音声対話に基づくコンテキスト取得方法を実現することを特徴とするコンピューター読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810709792.8A CN108920639B (zh) | 2018-07-02 | 2018-07-02 | 基于语音交互的上下文获取方法及设备 |
CN201810709792.8 | 2018-07-02 | ||
PCT/CN2019/087203 WO2020007129A1 (zh) | 2018-07-02 | 2019-05-16 | 基于语音交互的上下文获取方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020529033A JP2020529033A (ja) | 2020-10-01 |
JP6968908B2 true JP6968908B2 (ja) | 2021-11-17 |
Family
ID=64424805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019563817A Active JP6968908B2 (ja) | 2018-07-02 | 2019-05-16 | コンテキスト取得方法及びコンテキスト取得デバイス |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210012777A1 (ja) |
EP (1) | EP3617946B1 (ja) |
JP (1) | JP6968908B2 (ja) |
KR (1) | KR20200004826A (ja) |
CN (1) | CN108920639B (ja) |
WO (1) | WO2020007129A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10553203B2 (en) | 2017-11-09 | 2020-02-04 | International Business Machines Corporation | Training data optimization for voice enablement of applications |
US10565982B2 (en) | 2017-11-09 | 2020-02-18 | International Business Machines Corporation | Training data optimization in a service computing system for voice enablement of applications |
CN108920639B (zh) * | 2018-07-02 | 2022-01-18 | 北京百度网讯科技有限公司 | 基于语音交互的上下文获取方法及设备 |
CN109559761A (zh) * | 2018-12-21 | 2019-04-02 | 广东工业大学 | 一种基于深度语音特征的脑卒中风险预测方法 |
CN109462546A (zh) * | 2018-12-28 | 2019-03-12 | 苏州思必驰信息科技有限公司 | 一种语音对话历史消息记录方法、装置及系统 |
CN111475206B (zh) * | 2019-01-04 | 2023-04-11 | 优奈柯恩(北京)科技有限公司 | 用于唤醒可穿戴设备的方法及装置 |
CN110210307B (zh) * | 2019-04-30 | 2023-11-28 | 中国银联股份有限公司 | 人脸样本库部署方法、基于人脸识别业务处理方法及装置 |
CN110223718B (zh) * | 2019-06-18 | 2021-07-16 | 联想(北京)有限公司 | 一种数据处理方法、装置及存储介质 |
CN110825765B (zh) * | 2019-10-23 | 2022-10-04 | 中国建设银行股份有限公司 | 一种人脸识别的方法和装置 |
CN112598840A (zh) * | 2020-12-16 | 2021-04-02 | 广州云从鼎望科技有限公司 | 基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备 |
CN114356275B (zh) * | 2021-12-06 | 2023-12-29 | 上海小度技术有限公司 | 交互控制方法、装置、智能语音设备及存储介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001331799A (ja) * | 2000-03-16 | 2001-11-30 | Toshiba Corp | 画像処理装置および画像処理方法 |
US20030154084A1 (en) * | 2002-02-14 | 2003-08-14 | Koninklijke Philips Electronics N.V. | Method and system for person identification using video-speech matching |
US9053750B2 (en) * | 2011-06-17 | 2015-06-09 | At&T Intellectual Property I, L.P. | Speaker association with a visual representation of spoken content |
US9318129B2 (en) * | 2011-07-18 | 2016-04-19 | At&T Intellectual Property I, Lp | System and method for enhancing speech activity detection using facial feature detection |
JP5845686B2 (ja) * | 2011-07-26 | 2016-01-20 | ソニー株式会社 | 情報処理装置、フレーズ出力方法及びプログラム |
US9214157B2 (en) * | 2011-12-06 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for machine-mediated human-human conversation |
US10509829B2 (en) * | 2015-01-21 | 2019-12-17 | Microsoft Technology Licensing, Llc | Contextual search using natural language |
TWI526879B (zh) * | 2015-01-30 | 2016-03-21 | 原相科技股份有限公司 | 互動系統、遙控器及其運作方法 |
WO2016173326A1 (zh) * | 2015-04-30 | 2016-11-03 | 北京贝虎机器人技术有限公司 | 基于主题的交互系统及方法 |
US10521354B2 (en) * | 2015-06-17 | 2019-12-31 | Intel Corporation | Computing apparatus and method with persistent memory |
CN104951077A (zh) * | 2015-06-24 | 2015-09-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法、装置和终端设备 |
KR20170000748A (ko) * | 2015-06-24 | 2017-01-03 | 삼성전자주식회사 | 얼굴 인식 방법 및 장치 |
EP3312762B1 (en) * | 2016-10-18 | 2023-03-01 | Axis AB | Method and system for tracking an object in a defined area |
CN108154153B (zh) * | 2016-12-02 | 2022-02-22 | 北京市商汤科技开发有限公司 | 场景分析方法和系统、电子设备 |
CN106782545B (zh) * | 2016-12-16 | 2019-07-16 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
CN106782563B (zh) * | 2016-12-28 | 2020-06-02 | 上海百芝龙网络科技有限公司 | 一种智能家居语音交互系统 |
CN106683680B (zh) * | 2017-03-10 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
CN107086041A (zh) * | 2017-03-27 | 2017-08-22 | 竹间智能科技(上海)有限公司 | 基于加密计算的语音情感分析方法及装置 |
CN107799126B (zh) * | 2017-10-16 | 2020-10-16 | 苏州狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN107808145B (zh) * | 2017-11-13 | 2021-03-30 | 河南大学 | 基于多模态智能机器人的交互身份鉴别与跟踪方法及系统 |
CN108172225A (zh) * | 2017-12-27 | 2018-06-15 | 浪潮金融信息技术有限公司 | 语音交互方法及机器人、计算机可读存储介质、终端 |
CN110309691B (zh) * | 2018-03-27 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 一种人脸识别方法、装置、服务器及存储介质 |
CN108920639B (zh) * | 2018-07-02 | 2022-01-18 | 北京百度网讯科技有限公司 | 基于语音交互的上下文获取方法及设备 |
CN108920640B (zh) * | 2018-07-02 | 2020-12-22 | 北京百度网讯科技有限公司 | 基于语音交互的上下文获取方法及设备 |
-
2018
- 2018-07-02 CN CN201810709792.8A patent/CN108920639B/zh active Active
-
2019
- 2019-05-16 KR KR1020197034483A patent/KR20200004826A/ko not_active IP Right Cessation
- 2019-05-16 JP JP2019563817A patent/JP6968908B2/ja active Active
- 2019-05-16 WO PCT/CN2019/087203 patent/WO2020007129A1/zh unknown
- 2019-05-16 EP EP19802029.9A patent/EP3617946B1/en active Active
-
2020
- 2020-07-23 US US16/936,967 patent/US20210012777A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
KR20200004826A (ko) | 2020-01-14 |
EP3617946B1 (en) | 2024-01-03 |
JP2020529033A (ja) | 2020-10-01 |
EP3617946A4 (en) | 2020-12-30 |
WO2020007129A1 (zh) | 2020-01-09 |
CN108920639A (zh) | 2018-11-30 |
CN108920639B (zh) | 2022-01-18 |
EP3617946A1 (en) | 2020-03-04 |
US20210012777A1 (en) | 2021-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6968908B2 (ja) | コンテキスト取得方法及びコンテキスト取得デバイス | |
CN111488433B (zh) | 一种适用于银行的提升现场体验感的人工智能交互系统 | |
CN108520741B (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
CN108920640B (zh) | 基于语音交互的上下文获取方法及设备 | |
US20190237076A1 (en) | Augmentation of key phrase user recognition | |
KR102437944B1 (ko) | 음성 웨이크업 방법 및 장치 | |
JP6951712B2 (ja) | 対話装置、対話システム、対話方法、およびプログラム | |
US10270736B2 (en) | Account adding method, terminal, server, and computer storage medium | |
JP2021533397A (ja) | 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション | |
CN112148922A (zh) | 会议记录方法、装置、数据处理设备及可读存储介质 | |
CN109086276B (zh) | 数据翻译方法、装置、终端及存储介质 | |
CN110853646A (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
US20230206928A1 (en) | Audio processing method and apparatus | |
CN108986825A (zh) | 基于语音交互的上下文获取方法及设备 | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN112818909A (zh) | 图像更新方法、装置、电子设备及计算机可读介质 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
WO2024066920A1 (zh) | 虚拟场景的对话方法、装置、电子设备、计算机程序产品及计算机存储介质 | |
CN114155860A (zh) | 摘要记录方法、装置、计算机设备和存储介质 | |
CN111506183A (zh) | 一种智能终端及用户交互方法 | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
CN112151027A (zh) | 基于数字人的特定人询问方法、装置和存储介质 | |
CN114138960A (zh) | 用户意图识别方法、装置、设备及介质 | |
CN113762056A (zh) | 演唱视频识别方法、装置、设备及存储介质 | |
WO2021047103A1 (zh) | 一种语音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200120 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211019 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211027 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6968908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |