JP6968908B2 - コンテキスト取得方法及びコンテキスト取得デバイス - Google Patents

コンテキスト取得方法及びコンテキスト取得デバイス Download PDF

Info

Publication number
JP6968908B2
JP6968908B2 JP2019563817A JP2019563817A JP6968908B2 JP 6968908 B2 JP6968908 B2 JP 6968908B2 JP 2019563817 A JP2019563817 A JP 2019563817A JP 2019563817 A JP2019563817 A JP 2019563817A JP 6968908 B2 JP6968908 B2 JP 6968908B2
Authority
JP
Japan
Prior art keywords
conversation
voice
user
face
facial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019563817A
Other languages
English (en)
Other versions
JP2020529033A (ja
Inventor
陽 梁
昆 劉
爽爽 喬
湘粤 林
超 韓
名發 朱
江亮 郭
旭 李
俊 劉
碩 李
世明 尹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020529033A publication Critical patent/JP2020529033A/ja
Application granted granted Critical
Publication of JP6968908B2 publication Critical patent/JP6968908B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • H04M3/569Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/50Telephonic communication in combination with video communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/30Aspects of automatic or semi-automatic exchanges related to audio recordings in general
    • H04M2203/301Management of recordings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6045Identity confirmation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6054Biometric subscriber identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems

Description

本願は、2018年07月02日に中国特許局に提案し、出願番号が201810709792.8、出願者が北京百度綱訊科技有限公司、発明名称が「音声対話に基づくコンテキスト取得方法及びデバイス」の中国特許出願の優先権を主張し、その全ての内容は引用によって本願に組み合わせられる。
本発明の実施例は音声対話技術に関し、特に音声対話に基づくコンテキスト取得方法及びコンテキスト取得デバイスに関する。
人工知能技術の開発に伴って、インテリジェントな音声対話製品の開発と使用が大きな注目を集めていた。インテリジェントな音声対話は、音声入力に基づく対話モードであり、ユーザーは自分のリクエストを音声で入力でき、当該製品は、リクエストの意図に従って相応のコンテンツに応答できる。
従来の技術において、ウェルカムロボット、警察ロボットなどのインテリジェントサービスロボットのアプリケーションシナリオでは、複数の人が同時にインテリジェントサービスロボットと対話するシナリオがある場合が多い。複数の人がロボットと対話するとき、対話のソースが認識されることができない場合、対話コンテキストを正確に取得することができないため、ユーザーに正確なサービスを提供できず、悪い対話体験をもたらす。現在は、同じユーザーの対話コンテンツに異なる主題がないと仮定し、且つ2人のユーザーの対話コンテンツの主題は重複がないという前提で、自然言語理解を通じて対話意味に従って身元を認識し、同じユーザーの対話コンテキストを取得するようにしている。
しかしながら、実際の使用では、自然言語理解に基づいた仮定は常に真実とは限らなく、音声対話コンテキストを取得するエラー率が高くなることを引き起こす。
本発明の実施例は音声対話コンテキストを取得するエラー率が高いという問題を克服するように、音声対話に基づくコンテキスト取得方法及びデバイスを提供する。
第1態様によれば、本発明の実施例は音声対話に基づくコンテキスト取得方法を提供し、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出するステップと、各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると確定すると、前記顔データベースから前記第2顔の特徴に対応した第1ユーザーアイデンティティを取得し、前記第1顔の特徴は1人のユーザーの顔の特徴であり、前記第2顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるステップと、音声データベースに前記第1ユーザーアイデンティティに対応した記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶するステップと、を含む。
一つの可能な設計においては、各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在しないと確定すると、前記方法は、更に、前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーの第2ユーザーアイデンティティを生成するステップと、音声終了点を検出した時に、本回の会話と第2ユーザーアイデンティティとを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記第2ユーザーアイデンティティとを顔データベースに関連付けストレージするステップと、を含む。
本回の会話と第2ユーザーアイデンティティを音声データベースに関連付けストレージし、及びターゲットユーザーの顔の特徴と前記第2ユーザーアイデンティティを顔データベースに関連付けストレージすることによって、ユーザーが端末と再度音声対話する時に、顔データベースと音声データベースにおける内容に基づいて記憶された会話からコンテキストを取得することができるようにする。顔データベースと音声データベースを個別に設定することにより、顔データベースと音声データベースを個別に保存し、メンテナンスすることが簡便にできる。
一つの可能な設計においては、前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定する前記ステップは、前記第1ユーザーアイデンティティに従って前記音声データベースから前記第1ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定することを含む。
当該時間間隔がプリセット間隔より小さい場合、前の会話と本回の会話はコンテキスト会話である可能性が高いことを意味し、当該時間間隔がプリセット間隔より大きい又は等しい場合、当該会話はユーザーのある主題に対する前の会話であることを意味し、本回のコンテキスト会話と見なすことができない。前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいか否かを判断することによって、本回の会話のコンテキストをより正確に判断することができ、コンテキストを取得する正確性を向上させる。
一つの可能な設計においては、前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいのを確定すると、前記方法は、更に、前記音声データベースから関連付けストレージされた前記第1ユーザーアイデンティティと対応した記憶された会話を削除するステップを含む。
当該時間間隔がプリセット間隔より大きい又は等しい場合、当該会話はユーザーのある主題に対する前の会話であることを意味し、本回のコンテキスト会話と見なすことができない。これにより、音声データベースから関連付けストレージされた第1ユーザーアイデンティティと対応した記憶された会話を削除することにより、音声データベース内のデータを新しいデータに保持することができる。
一つの可能な設計においては、前記方法は、更に、前記顔データベースにおける予め設定された期間内でマッチされない第3ユーザーアイデンティティ及び対応した顔の特徴を削除するステップを含む。
当該削除方法によって、関連付けストレージされたユーザーアイデンティティと顔の特徴を一括削除することができるので、削除効率を向上させ、顔データベースにおけるデータを新しいデータに保持することができ、顔データベースの冗長性を避けることができる。
一つの可能な設計においては、前記シーン画像における各ユーザーの顔の特徴を抽出する前記ステップは、前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することを含む。
顔の特徴モデルによってユーザーの顔の特徴を取得するのは、処理速度が速いだけでなく、且つ精度も高い。
一つの可能な設計においては、前記複数の顔写真を予め設定された顔の特徴モデルに順次に入力する前記ステップの前に、前記方法は、顔トレーニングサンプルを取得し、前記顔トレーニングサンプルは顔写真とラベルを含むステップと、前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むステップと、前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得するステップと、を含む。
上記のモデルトレーニングプロセスによって、初期の顔の特徴モデルを取得し、当該初期の顔の特徴モデルにおける分類レイヤーを削除して、予め設定された顔の特徴モデルを取得する。分類レイヤーを削除したため、予め設定された顔の特徴モデルを使用する場合、シーン画像からカットアウトして顔写真を取得すると、顔写真が顔の特徴モデルに入力され、顔の特徴モデルが分類結果を出力する代わりに、顔の特徴を直接出力することができる。
一つの可能な設計においては、前記顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、前記特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含む。
このような畳み込み、プーリング操作を有するディープニューラルネットワークモデルを使用することにより、画像の歪み、ぼかし、ノイズ等に対して高い堅牢性を有することができ、分類タスクに対して高い一般化可能性を有するようにできる。
第2態様によれば、本発明の実施例は音声対話に基づくコンテキスト取得デバイスを提供し、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出するための抽出モジュール、各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると確定すると、前記顔データベースから前記第2顔の特徴に対応した第1ユーザーアイデンティティを取得することに用いられ、前記第1顔の特徴は1人のユーザーの顔の特徴であり、前記第2顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるマッチモジュール、及び音声データベースに前記第1ユーザーアイデンティティに対応した記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶するための取得モジュール、を備える。
一つの可能な設計においては、前記マッチモジュールは更に、各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在しないと確定すると、前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーの第2ユーザーアイデンティティを生成すること、及び音声終了点を検出した時に、本回の会話と第2ユーザーアイデンティティとを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記第2ユーザーアイデンティティとを顔データベースに関連付けストレージすることに用いられる。
一つの可能な設計においては、前記取得モジュールは具体的に、前記第1ユーザーアイデンティティに従って前記音声データベースから前記第1ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定することに用いられる。
一つの可能な設計においては、前記取得モジュールは更に、前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと確定すると、前記音声データベースから関連付けストレージされた前記第1ユーザーアイデンティティと対応した記憶された会話を削除することに用いられる。
一つの可能な設計においては、前記マッチモジュールは更に、前記顔データベースにおける予め設定された期間内でマッチされない第3ユーザーアイデンティティ及び対応した顔の特徴を削除することに用いられる。
一つの可能な設計においては、前記抽出モジュールは具体的に、前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することに用いられる。
一つの可能な設計においては、モデリングモジュールを更に備え、前記モデリングモジュールは、前記複数の顔写真を予め設定された顔の特徴モデルに順次に入力する前に、顔トレーニングサンプルを取得して、前記顔トレーニングサンプルは顔写真とラベルを含むこと、前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むこと、及び前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得することに用いられる。
一つの可能な設計においては、前記顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、前記特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含む。
第3態様によれば、本発明の実施例は音声対話に基づくコンテキスト取得デバイスを提供し、少なくとも1つのプロセッサとメモリを含み、前記メモリはコンピューター実行命令を記憶し、前記少なくとも1つのプロセッサは前記メモリに記憶されたコンピューター実行命令を実行して、前記少なくとも1つのプロセッサに上記第1態様又は第1態様の様々な可能な設計に記載の音声対話に基づくコンテキスト取得方法を実行させる。
第4態様によれば、本発明の実施例はコンピューター読み取り可能な記憶媒体を提供し、前記コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、プロセッサは前記コンピューター実行命令を実行する際に、上記の第1態様又は第1態様の様々な可能な設計に記載の音声対話に基づくコンテキスト取得方法を実現する。
本実施例による音声対話に基づくコンテキスト取得方法及びコンテキスト取得デバイスは、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つシーン画像における各ユーザーの顔の特徴を抽出し、各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると確定すると、顔データベースから第2顔の特徴に対応した第1ユーザーアイデンティティを取得する。第1顔の特徴は1人のユーザーの顔の特徴であり、第2顔の特徴は顔データベースに記憶された会話状態にあるユーザーの顔の特徴であり、顔認識によってユーザーを正確に身元認識することを実現する。音声データベースに第1ユーザーアイデンティティに対応した記憶された会話が記憶されていると確定すると、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、且つ本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶し、ユーザーアイデンティティによって本回の会話と同じユーザーに属する記憶された会話を取得することができ、同じユーザーの会話に従って音声対話のコンテキストを取得し、異なるユーザーの会話をコンテキストとすることを避けて、コンテキストを取得する正確性を向上させる。
本発明の実施例又は従来技術の技術的解決手段をより明確に説明するために、以下、実施例又は従来技術の説明で用いられる図面について簡単に説明する。明らかに、以下の説明における図面は、本発明のいくつかの実施例であり、当業者であれば、これらの図面に基づいて創造的な労働をせずに、これらの図面から他の図面を得ることができる。
本発明の実施例による音声対話に基づくコンテキスト取得方法のシステムアーキテクチャ図である。 本発明の実施例による音声対話に基づくコンテキスト取得方法のフローチャート1である。 本発明の実施例による音声対話に基づくコンテキスト取得方法のフローチャート2である。 本発明の実施例による顔の特徴モデルの構造模式図である。 本発明の実施例による音声対話に基づくコンテキスト取得デバイスの構造模式図である。 本発明の実施例による音声対話に基づくコンテキスト取得デバイスのハードウェア構造模式図である。
本発明の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本発明の実施例における添付の図面を参照しながら、本発明の実施例における技術的解決手段を明確かつ完全に説明する。記載された実施例は本発明の実施例の一部にすぎず、実施例の全てではないことは明らかである。本発明の実施例に基づき、創造的な労働をせずに、当業者が取得した他の全ての実施例は、いずれも本発明の保護範囲に属する。
図1は本発明の実施例による音声対話に基づくコンテキスト取得方法のシステムアーキテクチャ図である。図1に示すように、当該システムは端末110とサーバー120を備える。端末110はストーリーマシン、携帯電話、タブレット、カーターミナル、ウェルカムロボット、警察ロボット等の音声対話機能を有するデバイスであってよい。
本実施例は端末110の実現モードを特に制限せず、端末110がユーザーと音声対話できればよい。本実施例において、端末110は画像キャプチャ装置を更に備え、画像キャプチャ装置が端末110と会話するユーザーの画像をキャプチャすることができる。画像キャプチャ装置はカメラ、ビデオカメラ等であってよい。サーバー120は各種のオンラインサービスを提供することができ、ユーザーの質問と回答に対して質問に対応した回答結果を提供することができる。
複数のユーザーが端末110と会話する過程に対して、本発明の実施例は同様に適用する。本実施例に関した複数のユーザーが端末110と会話する過程は、ユーザーAが端末110と会話する場合に、ユーザーAが端末110と会話する間に、ユーザーBが更に入って端末110と会話し、この時、ユーザーAとユーザーBが端末110と交互に会話し、これにより、複数人の会話シーンを形成する。
本発明の実施例は声紋に基づいてユーザーを身元認識し、ユーザーのコンテキストを取得することができる。例えばユーザーAとユーザーBが同時に端末と対話する過程において、ユーザーAのコンテキスト及びユーザーBのコンテキストを取得することができ、それによりコンテキストを取得するエラー率を低下させる。同じユーザーの音声対話のコンテキストを取得した後に、コンテキストを組み合わせてユーザーに質問に対する回答結果をフィードバックし、ユーザー体験を向上させる。
本発明の実施例の実行主体は上記のサーバーであってよく、端末はユーザーが入力した会話を取得した後に、サーバーに会話を送信し、サーバーにより会話の質問に対する回答結果を戻す。当業者は、端末の機能が十分に強い場合、端末が会話を取得した後に、質問に対する回答結果を自己フィードバックしてもよいことを理解することができる。以下、サーバーを実行主体として、本発明の実施例による音声対話に基づくコンテキスト取得方法を詳細に説明する。
図2は本発明の実施例による音声対話に基づくコンテキスト取得方法を示すフローチャート1である。図2に示すように、当該方法は、次のステップを含む。ステップS201では、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つシーン画像における各ユーザーの顔の特徴を抽出する。
人間とコンピューターの相互作用技術の開発により、音声認識技術はその重要性を示している。音声認識システムにおいて、音声エンドポイント検出技術は非常に重要な技術であり、一般的に、音声アクティビティ検出技術(voice activity detection、VAD)とも呼ばれる。音声エンドポイント検出とは連続音声信号内から音声部分の音声開始点と音声終了点を見つけることを指す。音声アクティビティ検出技術の具体的な実現モードについては、本実施例はここで制限しない。音声アクティビティ検出技術の実行者は上記の端末であってもよいし、端末がサーバーにリアルタイムに音声を送信して、サーバーにより実行してもよい。
本実施例における本回の会話と記憶された会話とはユーザーが端末に入力した1本の連続音声、すなわち一文を指す。会話すると記載した場合に、「会話」は実行する動作と理解されることができる。本実施例の「会話」はあるシーンにおいて名詞と示されてもよい。「会話」の品詞については、言語記述シーンに応じて判断することができる。
本回の会話の音声開始点を検出した際に、画像キャプチャ装置が音声開始点にキャプチャしたシーン画像を取得する。すなわち端末と音声対話して端末に話すユーザがいると確定する場合に、現在のシーンでキャプチャしたシーン画像を取得する。端末に複数の人が向かっており、会話が存在した場合、現在のシーン画像には端末のマイクに直面して、且つ口の様子が話し様子であるユーザーが存在し、同時に端末のマイクに対して横向き又はその他の向きを持つユーザーが存在する可能性もある。
シーン画像を取得した後に、シーン画像における各ユーザーの顔の特徴を抽出し、例えば顔の特徴モデルによって顔の特徴を抽出することができる。
抽出過程において、各ユーザーを単位として、ユーザーについて顔の特徴を抽出する。具体的には、シーン画像をカットアウト処理して、各顔の顔写真を取得し、複数の顔写真を予め設定された顔の特徴モデルに順次に入力して、顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得する。
顔の特徴は多次元特徴、例えば多次元ベクトルであってよく、各次元のベクトルは1つの特徴、例えば眉毛の特徴、目の特徴、鼻の特徴等を示し、本実施例はここで繰り返して説明しない。
本実施例において、端末は各サーバーの負荷に応じて、サーバーをスケジュールしてもよく、すなわち負荷が軽いサーバーにより本実施例のステップを実行する。
ステップS202では、各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在するか否かを判断する。第1顔の特徴は1人のユーザーの顔の特徴であり、第2顔の特徴は顔データベースに記憶された会話状態にあるユーザーの顔の特徴であり、存在すると判断すると、ステップS203を実行し、存在しないと判断すると、ステップS207を実行する。ステップS203では、顔データベースから第2顔の特徴に対応した第1ユーザーアイデンティティを取得する。
各ユーザーの顔の特徴を取得した後に、各ユーザーの顔の特徴と顔データベースにおける顔の特徴とをマッチして、顔データベースにおける第2顔の特徴にマッチすることができる一人のユーザーの第1顔の特徴を有するか否かを判断する。
1人のユーザーがマイクに直面している場合、他のユーザーはマイクに直面することができないため、キャプチャされたシーン画像でマイクと会話しているユーザーは1人である。したがって、第2顔の特徴にマッチする一人のユーザーの第1顔の特徴が存在するか否かを判断することができることを、当業者は理解できる。本実施例におけるマッチは顔の特徴の類似性がデフォルト値より大きい前提で、類似性が最も高い2つの顔の特徴と理解されることができ、類似性は2つの顔の特徴のコサイン類似性であってよい。
顔データベースにおける会話状態(口を開けて話す状態)にある第2顔の特徴にマッチする一人のユーザーの顔の特徴が存在する場合、顔データベースから第2顔の特徴に対応した第1ユーザーアイデンティティを取得し、次に、ステップS204、ステップS205及びステップS206を順次に実行する。顔データベースに会話状態にある顔の特徴と対応したユーザーアイデンティティが関連付けストレージされる。
顔データベースにおける会話状態(口を開けて話す状態)にある第2顔の特徴にマッチする一人のユーザーの顔の特徴が存在しない場合、ステップS207とステップS208を順次に実行する。
ステップS204では、音声データベースに第1ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断する。記憶されたと判断すると、ステップS205を実行し、記憶されていないと判断すると、ステップS206を実行する。ステップS205では、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶する。ステップS206では、本回の会話と第1ユーザーアイデンティティを音声データベースに関連付けストレージする。
顔データベースにおける会話状態(口を開けて話す状態)にある第2顔の特徴にマッチする一人のユーザーの顔の特徴が存在する場合、音声データベースに第1ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断する。音声データベースにユーザーアイデンティティに対応した会話が関連付けストレージされる。
音声データベースに第1ユーザーアイデンティティに対応した記憶された会話が存在すると、本回の会話は予め設定された期間内でユーザーが端末に入力した最初の音声ではないことを意味する。この時、本回の会話と記憶された会話に従って音声対話のコンテキストを確定、すなわち当該記憶された会話から本回の会話のコンテキストを確定する。このように、限られた会話から、自然言語理解を組み合わせて本回の会話に関連する記憶された会話を取得、すなわちコンテキストを取得することができる。本回の会話の音声終了点を取得した後、本回の会話を音声データベースに記憶し、且つ本回の会話と音声データベースにおける第1ユーザーアイデンティティとの関連関係を確立する。
音声データベースに第1ユーザーアイデンティティに対応した記憶された会話が記憶されていないと、本回の会話はユーザーが予め設定された期間内で端末に入力した最初の音声であるということを意味する。予め設定された期間は現在時点の前の予め設定された期間であり、例えば現在時点の前の30分間である。この時点では、本回の会話はコンテキストを備えていないとみなして、本回の会話と第1ユーザーアイデンティティを音声データベースに関連付けストレージする。
選択可能な一実施態様として、本実施例においては、更に音声データベースと顔データベースを1つのデータベースに併合してもよく、すなわち1つのデータベースにユーザーアイデンティティ、対応した顔の特徴及びユーザー会話を関連付けストレージされていてもよい。選択可能な一実施態様として、更にデータベースに顔の特徴及び対応したユーザー会話を直接に関連付けストレージすることができる。
ここで、各ユーザーの顔の特徴及びデータベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると確定すると、データベースから第2顔の特徴に対応した記憶された会話を取得し、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、且つ本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶する。
本実施例においては、顔データベースと音声データベースとを個別に設定することにより、顔データベースと音声データベースとを個別に保存することができ、メンテナンスの簡便性を高めることができる。
ステップS207では、各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つターゲットユーザーの第2ユーザーアイデンティティを生成する。
ステップS208では、音声終了点を検出した場合に、ターゲットユーザーの顔の特徴と第2ユーザーアイデンティティを顔データベースに関連付けストレージして、且つ本回の会話と第2ユーザーアイデンティティを音声データベースに関連付けストレージする。
顔データベースにおける会話状態(口を開けて話す状態)にある第2顔の特徴にマッチする一人のユーザーの顔の特徴が存在しない場合、現在のユーザーはこの前に端末と音声対話したことがないことを意味する。このとき、各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、ターゲットユーザーの第2ユーザーアイデンティティを生成する。ユーザーアイデンティティは数字、文字等又はその組み合わせであってよい。また例えば、更にハッシュアルゴリズムによってターゲットユーザーのユーザーアイデンティティを生成してもよい。本実施例はユーザーアイデンティティの実現方法を特に制限しない。
音声終了点を検出した場合に、ターゲットユーザーの顔の特徴と第2ユーザーアイデンティティを顔データベースに関連付けストレージし、且つ本回の会話と第2ユーザーアイデンティティを音声データベースに関連付けストレージし、ユーザーが端末と再度音声対話するときに、顔データベースと音声データベースにおける内容に基づいて記憶された会話からコンテキストを取得することができるようにする。
本実施例による音声対話に基づくコンテキスト取得方法は、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つシーン画像における各ユーザーの顔の特徴を抽出し、各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると判断すると、顔データベースから第2顔の特徴に対応した第1ユーザーアイデンティティを取得する。第1顔の特徴は1人のユーザーの顔の特徴であり、第2顔の特徴は顔データベースに記憶された会話状態にあるユーザーの顔の特徴である。そして、顔認識によってユーザーを正確に身元認識することを実現し、音声データベースに第1ユーザーアイデンティティに対応した記憶された会話が記憶されたと確定すると、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、且つ本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶し、ユーザーアイデンティティによって本回の会話と同じユーザーに属する記憶された会話を取得することができ、同じユーザーの会話に従って音声対話のコンテキストを取得し、異なるユーザーの会話をコンテキストとすることを避けて、コンテキストを取得する正確性を向上させる。
以下、音声対話のコンテキストを確定する実現方法を説明する。図3は本発明の実施例による音声対話に基づくコンテキスト取得方法のフローチャート2である。図3に示すように、当該方法は以下のステップを含む。ステップS301では、第1ユーザーアイデンティティに従って音声データベースから第1ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点を取得する。ステップS302では、前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいか否かを判断し、小さいと判断すると、ステップS303を実行し、小さくないと判断すると、ステップS304を実行する。ステップS303では、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、ステップS304では、音声データベースから関連付けストレージされた第1ユーザーアイデンティティと対応した記憶された会話を削除する。
具体的な実現過程においては、音声データベースにユーザーアイデンティティ及びユーザーアイデンティティに対応した各文が記憶され、すなわちユーザーアイデンティティとユーザーの少なくとも1つの会話を関連付けストレージする。各会話を記憶する際に、会話の音声開始点の時間と音声終了点の時間も対応させて記憶する。
ターゲットユーザーの顔の特徴に従って第1ユーザーアイデンティティを取得した後に、第1ユーザーアイデンティティに従って音声データベースから第1ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点を取得する。
次に、前の会話の音声終了点の発生時間と本回の会話の音声開始点の発生時間に従って、前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔を取得する。
当該時間間隔がプリセット間隔より小さい場合、前の会話と本回の会話はコンテキスト会話である可能性が高いことを意味する。例えばプリセット間隔は10分間、30分間等であってよく、本実施例はプリセット間隔を制限しない。
当時間間隔がプリセット間隔より大きい又は等しい場合、会話はユーザーがある主題について行った前の会話であることを意味し、本回のコンテキスト会話と見なすことができない。それにより、音声データベースから関連付けストレージされた第1ユーザーアイデンティティと対応した記憶された会話を削除し、本回の会話はコンテキストが存在しないとして扱う。
選択可能な一実施態様として、音声データベースから関連付けストレージされた第1ユーザーアイデンティティと対応した記憶された会話を削除する場合に、顔データベースから関連付けストレージされた第1ユーザーアイデンティティと対応した顔の特徴を削除してもよい。
選択可能な一実施態様として、両方を非同期的に削除することもでき、顔データベースにおける予め設定された期間内でマッチされない第3ユーザーアイデンティティ及び対応した顔の特徴を削除することができる。当該削除方法によって、関連付けストレージされたユーザーアイデンティティと顔の特徴を一括削除することができ、削除効率を向上させる。
一人のユーザーの会話を取得する度に、上記の操作を行い、それにより音声データベースに記憶された各ユーザーの複数の会話は、すべて時間間隔がプリセット間隔より小さい会話であることを、当業者は理解できる。このため、ユーザーのすべての既存の会話と本回の会話とに基づいて本回の会話のコンテキストを取得する。例えば、ユーザーの本回の会話及び全ての記憶された会話を音声対話のコンテキストとしてもよいし、同じユーザーの会話に対して、自然言語理解に基づいて、全ての記憶された会話から本回の会話のコンテキストを取得してもよい。
本実施例においては、前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいか否かを判断することによって、本回の会話のコンテキストをより正確に判断することができ、コンテキストを取得する正確性を向上させる。
上記の実施例において、本発明の実施例は顔の特徴モデルによって各ユーザーの顔の特徴を取得する。以下、詳細的な実施例によって顔の特徴モデルを構築する過程を説明する。
図4は本発明の実施例による顔の特徴モデルの構造模式図である。図4に示すように、顔の特徴モデルは深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks、Deep CNN)を採用することができる。当該モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含む。選択可能な一実施態様として、特徴レイヤーは畳み込み層、プーリング層、完全接続層を含む。特徴レイヤーに複数の交互の畳み込み層とプーリング層を有することができる。
具体的な実現過程においては、様々な使用シナリオに対して、顔の特徴モデルに基づいて、異なる深さ、異なる数のニューロン、異なる畳み込みプーリングモードで構成される深層ニューラルネットワークモデルを設計することができる。
モデルをトレーニングする際に、顔トレーニングサンプルを取得し、顔トレーニングサンプルは顔写真とラベルを含む。ラベルは予め較正された顔写真における各特徴の分類結果であり、ラベルは行列形式のベクトルであってよい。
顔写真を入力レイヤーから入力する。入力は実際に行列からなるベクトルである。次に、畳み込み層は重みが異なる畳み込みカーネルを用いて元の画像又は特徴マップ(feature map)をスキャン畳み込みし、その中から様々な意味の特徴を抽出し、且つ特徴マップに出力する。プーリング層は連続的な畳み込み層の中間に挟まれ、データとパラメーターの量を圧縮して、オーバーフィットを減少し、すなわち特徴マップを次元削減して、特徴マップにおける主要な特徴を保つ。両層の間の全てのニューロンはウェイト接続を有し、一般的に、完全接続層は畳み込みニューラルネットワークの尾部にある。最後の特徴は分類レイヤーを通した後に結果を出力する。
モデルの出力とラベルとの間のエラー値が予め設定されたサービス要件を満たす閾値より小さくなると、トレーニングを停止する。このような畳み込み、プーリング操作を有するディープニューラルネットワークモデルを使用すると、画像の歪み、ぼかし、ノイズ等に対して高い堅牢性を有することができ、分類タスクに対して高い一般化可能性を有するものとできる。
上記のモデルトレーニング過程によって、初期の顔の特徴モデルを取得し、初期の顔の特徴モデルにおける分類レイヤーを削除して、予め設定された顔の特徴モデルが取得される。分類レイヤーを削除したため、予め設定された顔の特徴モデルを使用する場合、シーン画像からカットアウトして顔写真を取得すると、顔写真が顔の特徴モデルに入力され、顔の特徴モデルが分類結果を出力する代わりに、顔の特徴を直接出力することができる。
本実施例は深層畳み込みニューラルネットワークモデルを使用して顔の特徴を抽出し、身元認識を行うことによって、会話のソースを正確に区別し、一人一人の対話コンテキストを見つけることができるため、マルチプレイヤーシーンでの対話体験を向上させる。
図5は本発明の実施例による音声対話に基づくコンテキスト取得デバイスの構造模式図である。図5に示すように、音声対話に基づくコンテキスト取得デバイス50は、抽出モジュール501、マッチモジュール502及び取得モジュール503を備える。選択可能な一実施態様においては、モデリングモジュール504を更に備える。
抽出モジュール501は、画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つシーン画像における各ユーザーの顔の特徴を抽出することに用いられ、マッチモジュール502は、各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると確定すると、顔データベースから第2顔の特徴に対応した第1ユーザーアイデンティティを取得することに用いられ、第1顔の特徴は1人のユーザーの顔の特徴であり、第2顔の特徴は顔データベースに本回の会話状態にあるユーザーの顔の特徴であり、取得モジュール503は、音声データベースに第1ユーザーアイデンティティに対応した記憶された会話が記憶されたと確定すると、本回の会話と記憶された会話に従って音声対話のコンテキストを確定し、且つ本回の会話の音声終了点を取得した後に、本回の会話を音声データベースに記憶することに用いられる。
選択可能な一実施態様として、マッチモジュール502は更に、各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在しないと判断すると、各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つターゲットユーザーの第2ユーザーアイデンティティを生成すること、及び音声終了点を検出した時に、本回の会話と第2ユーザーアイデンティティを音声データベースに関連付けストレージし、及びターゲットユーザーの顔の特徴と第2ユーザーアイデンティティを顔データベースに関連付けストレージすることに用いられる。
選択可能な一実施態様として、取得モジュール503は具体的に、第1ユーザーアイデンティティに従って音声データベースから第1ユーザーアイデンティティに対応する前の会話の音声開始点と音声終了点を取得すること、及び前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、本回の会話と記憶された会話に従って音声対話のコンテキストを確定することに用いられる。
選択可能な一実施態様として、取得モジュール503は更に、前の会話の音声終了点と本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと判断すると、音声データベースから関連付けストレージされた第1ユーザーアイデンティティと対応した記憶された会話を削除することに用いられる。
選択可能な一実施態様として、マッチモジュール502は更に、顔データベースにおける予め設定された期間内でマッチされない第3ユーザーアイデンティティ及び対応した顔の特徴を削除することに用いられる。
選択可能な一実施態様として、抽出モジュール501は具体的に、シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び複数の顔写真を予め設定された顔の特徴モデルに順次に入力して、顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することに用いられる。
モデリングモジュール504は、複数の顔写真を予め設定された顔の特徴モデルに順次に入力する前に、顔トレーニングサンプルを取得して、顔トレーニングサンプルは顔写真とラベルを含むこと、顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むこと、及び初期の顔の特徴モデルにおける分類レイヤーを削除して、予め設定された顔の特徴モデルを取得することに用いられる。
選択可能な一実施態様として、顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含む。
本実施例による音声対話に基づくコンテキスト取得デバイスは、その実現原理と技術的効果が上記のコンテキスト取得方法の実施例と同様であるため、ここで繰り返して説明はしない。
図6は本発明の実施例による音声対話に基づくコンテキスト取得デバイスのハードウェア構造模式図である。図6に示すように、音声対話に基づくコンテキスト取得デバイス60は、少なくとも1つのプロセッサ601とメモリ602を含む。選択可能な一実施態様として、音声対話のコンテキスト取得デバイス60は通信部材603を更に含む。プロセッサ601、メモリ602及び通信部材603はバス604によって接続される。
具体的な実現過程において、少なくとも1つのプロセッサ601はメモリ602に記憶されたコンピューター実行命令を実行し、少なくとも1つのプロセッサ601に以上のような音声対話に基づくコンテキスト取得方法を実行させる。
通信部材603はその他のデバイスとデータ対話することができる。
プロセッサ601の具体的な実現過程は上記のコンテキスト取得方法の実施例を参照することができ、その実現原理と技術的効果は同様であるため、ここで繰り返して説明はしない。
なお、上記の図6に示すような実施例において、プロセッサは中央処理ユニット(英語、Central Processing Unit、CPUと略称)であってもよいし、その他の汎用プロセッサ、デジタル信号プロセッサ(英語、Digital Signal Processor、DSPと略称)、特定用途向け集積回路(英語、Application Specific Integrated Circuit、ASICと略称)等であってもよい。汎用プロセッサはマイクロプロセッサであってもよいし、又はプロセッサは任意の従来のプロセッサ等であってもよい。発明に開示された方法を組み合わせたステップは、直接にハードウェアプロセッサにより実行して完成されるように体現されてもよいし、又はプロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせによって実行して完成されるように体現されてもよい。
メモリは高速RAMメモリを含む可能性があり、不揮発性メモリNVM、例えば少なくとも1つの磁気ディスクメモリを含む可能性もある。
バスは業界標準アーキテクチャ(Industry Standard Architecture、ISA)バス、周辺機器相互接続(Peripheral Component、PCI)バス又は拡張業界標準アーキテクチャ(Extended Industry Standard Architecture、EISA)バス等であってよい。バスはアドレスバス、データバス、制御バス等に分けられることができる。本願の図面におけるバスは利便性を考慮して表示されているにすぎず、1本のバス又は1種のタイプのバスのみに制限されない。
本願はコンピューター読み取り可能な記憶媒体を更に提供し、コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、プロセッサがコンピューター実行命令を実行する際に、以上のような音声対話に基づくコンテキスト取得方法を実現する。
上記のコンピューター読み取り可能な記憶媒体において、上記読み取り可能な記憶媒体が任意のタイプの揮発性および不揮発性記憶デバイス又はそれらの組み合わせによって実現されることができ、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、ディスク又はCDであってよい。読み取り可能な記憶媒体は汎用または特殊用途のコンピューターによってアクセスすることができる任意の利用可能な媒体とすることができる。
例示的な読み取り可能な記憶媒体はプロセッサにカップリングされ、それによりプロセッサが読み取り可能な記憶媒体から情報を読み取ることができ、且つ読み取り可能な記憶媒体へ情報を書き込むことができる。無論、読み取り可能な記憶媒体はプロセッサの構成部分としてもよい。プロセッサ及び読み取り可能な記憶媒体は特定用途向け集積回路(Application Specific Integrated Circuits、ASICと略称)に位置させることができる。無論、プロセッサ及び読み取り可能な記憶媒体は分割部材としてデバイス内に存在してもよい。
ユニットの分割は、ロジック機能を分割しているだけであり、実際の実現時には別の分割方式もあり得る。例えば、複数のユニット又は組立部品を結合してもよいし、又は別のシステムに集積してもよいし、或いはいくつかの特徴は無視でき、又は実行しなくてもよい。一方で、表示又は検討した互いの間のカップリング、直接カップリング、又は通信接続は、いくつかのインターフェース、装置又はユニットによる間接カップリング又は通信接続であってよく、接続は電気的、機械的又はその他の様態の接続であってもよい。
上記の分離されたユニットとして説明したユニットは、物理的に分離していてもよいし、又は分離していなくてもよく、ユニットとして表示する部材は物理ユニットであってもよいし、又は物理ユニットではなくてもよい。すなわち1つの場所に位置してもよいし、複数のネットワークユニット内に分布してもよく、実際の需要に応じてその中の一部又は全部のユニットを選択して本実施例における各手段の目的を実現することができる。
また、本発明の各実施例における各機能ユニットは1つの処理ユニットに集積されてもよいし、各ユニットはそれぞれ物理的に別々に存在してもよいし、2つ又は2つ以上のユニットが1つのユニットに集積されていてもよい。
上記機能はソフトウェア機能ユニットの様態で実現するとともに独立した製品として販売又は使用される場合、1つのコンピューター読み取り可能な記憶媒体に記憶することができる。このような理解に基づいて、本発明の実施例の技術的解決手段は、本質的に従来技術に貢献する部分であり、或いは技術的解決手段の一部分はソフトウェア製品の様態で表現することができる。コンピュータソフトウェア製品が1つの記憶媒体に記憶され、一台のコンピューター設備(パーソナルコンピュータ、サーバー、或いはネットワーク設備等である)が本発明の各実施例に記載の方法の全部又は一部を実行するための若干の指令を含む。前述の記憶媒体は、Uディスク、モバイルハードディスク、読み出し専用記憶装置(Read−Only Memory、「ROM」と略称)、ランダムアクセスメモリ(Random Access Memory、「RAM」と略称)、ディスク或いはCD等の様々なプログラムコードを記憶できる媒体を含む。
当業者は、上記の各方法の実施例の全部又は一部のステップの実現を、プログラム命令に関連するハードウェアによって完成することができる。前述のプログラムはコンピューター可読記憶媒体に記憶されることができる。プログラムが実行される際に、上記の各方法の実施例を含むステップを実行し、前述の記憶媒体は、ROM、RAM、磁気ディスク或いは光ディスク等の様々なプログラムコードを記憶できる媒体を含むことを理解することができる。
最終的に説明すべきなのは、以上の各実施例は、本発明の技術的解決手段を説明するためのものだけであり、本発明の範囲を制限するものではない。上記の各実施例を参照して本発明を詳しく説明したが、当業者は、依然として上記の各実施例に記載の技術的解決手段を修正し、又はその中の一部又は全部の技術的特徴を等価置換することができ、これらの修正又は置換は、対応した技術的解決手段の本質を本発明の各実施例の技術的解決手段の範囲から逸脱させるものではないことを理解すべきである。

Claims (18)

  1. 端末に適用される音声対話に基づくコンテキスト取得方法であって、
    画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出するステップと、
    各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると確定すると、前記顔データベースから前記第2顔の特徴に対応したユーザーアイデンティティを取得し、前記第1顔の特徴は前記本回の会話のユーザーの顔の特徴であり、前記第2顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるステップと、
    音声データベースに前記ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断し、前記音声データベースに前記ユーザーアイデンティティに対応した前記記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶するステップと、を含むことを特徴とする音声対話に基づくコンテキスト取得方法。
  2. 各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在しないと確定すると、前記方法は、
    前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーのユーザーアイデンティティを生成するステップ、及び
    音声終了点を検出した時に、前記本回の会話と前記ターゲットユーザーのユーザーアイデンティティを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記ターゲットユーザーのユーザーアイデンティティとを顔データベースに関連付けストレージするステップを更に含むことを特徴とする請求項1に記載のコンテキスト取得方法。
  3. 前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定する前記ステップは、
    前記ユーザーアイデンティティに従って前記音声データベースから前記ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び
    前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定することを含むことを特徴とする請求項1に記載のコンテキスト取得方法。
  4. 前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと確定すると、前記方法は、
    前記音声データベースから関連付けストレージされた前記ユーザーアイデンティティと対応した記憶された会話を削除するステップを更に含むことを特徴とする請求項3に記載のコンテキスト取得方法。
  5. 前記方法は、
    前記顔データベースにおける予め設定された期間内でマッチされないユーザーアイデンティティ及び対応した顔の特徴を削除するステップを更に含むことを特徴とする請求項1に記載のコンテキスト取得方法。
  6. 前記シーン画像における各ユーザーの顔の特徴を抽出する前記ステップは、
    前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び
    複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することを含むことを特徴とする請求項1に記載のコンテキスト取得方法。
  7. 前記複数の顔領域を予め設定された顔の特徴モデルに順次に入力する前記ステップの前に、前記方法は、
    顔トレーニングサンプルを取得し、前記顔トレーニングサンプルは顔写真とラベルとを含むステップと、
    前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むステップと、
    前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得するステップと、を更に含むことを特徴とする請求項6に記載のコンテキスト取得方法。
  8. 前記顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、前記特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含むことを特徴とする請求項7に記載のコンテキスト取得方法。
  9. 端末に適用される音声対話に基づくコンテキスト取得デバイスであって、
    画像キャプチャ装置が本回の会話の音声開始点にキャプチャしたシーン画像を取得し、且つ前記シーン画像における各ユーザーの顔の特徴を抽出することに用いられる抽出モジュールと、
    各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在すると確定すると、前記顔データベースから前記第2顔の特徴に対応したユーザーアイデンティティを取得することに用いられ、前記第1顔の特徴は前記本回の会話のユーザーの顔の特徴であり、前記第2顔の特徴は顔データベースに記憶された、会話状態にあるユーザーの顔の特徴であるマッチモジュールと、
    音声データベースに前記ユーザーアイデンティティに対応した記憶された会話が記憶されたか否かを判断し、前記音声データベースに前記ユーザーアイデンティティに対応した前記記憶された会話が記憶されたと確定すると、前記本回の会話と前記記憶された会話とに従って音声対話のコンテキストを確定し、且つ前記本回の会話の音声終了点を取得した後に、前記本回の会話を前記音声データベースに記憶することに用いられる取得モジュール、とを含むことを特徴とする音声対話に基づくコンテキスト取得デバイス。
  10. 前記マッチモジュールは更に、
    各ユーザーの顔の特徴及び顔データベースに従って、第1顔の特徴にマッチする第2顔の特徴が存在しないと確定すると、前記各ユーザーの顔の特徴を含むパラメーターを分析して、会話状態にあるターゲットユーザーを取得し、且つ前記ターゲットユーザーのユーザーアイデンティティを生成すること、及び
    音声終了点を検出した時に、前記本回の会話と前記ターゲットユーザーのユーザーアイデンティティを音声データベースに関連付けストレージし、及び前記ターゲットユーザーの顔の特徴と前記ターゲットユーザーのユーザーアイデンティティとを顔データベースに関連付けストレージすることに用いられることを特徴とする請求項9に記載のコンテキスト取得デバイス。
  11. 前記取得モジュールは具体的に、
    前記ユーザーアイデンティティに従って前記音声データベースから前記ユーザーアイデンティティに対応した前の会話の音声開始点と音声終了点とを取得すること、及び
    前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より小さいと確定すると、前記本回の会話と前記記憶された会話に従って音声対話のコンテキストを確定することに用いられることを特徴とする請求項9に記載のコンテキスト取得デバイス。
  12. 前記取得モジュールは更に、
    前記前の会話の音声終了点と前記本回の会話の音声開始点との間の時間間隔がプリセット間隔より大きい又は等しいと確定すると、前記音声データベースから関連付けストレージされた前記ユーザーアイデンティティと対応した記憶された会話を削除することに用いられることを特徴とする請求項11に記載のコンテキスト取得デバイス。
  13. 前記マッチモジュールは更に、
    前記顔データベースにおける予め設定された期間内でマッチされないユーザーアイデンティティ及び対応した顔の特徴を削除することに用いられることを特徴とする請求項9に記載のコンテキスト取得デバイス。
  14. 前記抽出モジュールは具体的に、
    前記シーン画像をカットアウト処理して、各顔の顔写真を取得すること、及び
    複数の前記顔写真を予め設定された顔の特徴モデルに順次に入力して、前記顔の特徴モデルが順次に出力した各ユーザーの顔の特徴を取得することに用いられることを特徴とする請求項9に記載のコンテキスト取得デバイス。
  15. モデリングモジュールを更に備え、
    前記モデリングモジュールは、前記複数の顔領域を予め設定された顔の特徴モデルに順次に入力する前に、
    顔トレーニングサンプルを取得し、前記顔トレーニングサンプルは顔写真とラベルとを含むこと、
    前記顔トレーニングサンプルに従って、トレーニング後の初期の顔の特徴モデルを取得し、前記初期の顔の特徴モデルは入力レイヤー、特徴レイヤー、分類レイヤー及び出力レイヤーを含むこと、及び
    前記初期の顔の特徴モデルにおける分類レイヤーを削除して、前記予め設定された顔の特徴モデルを取得することに用いられることを特徴とする請求項14に記載のコンテキスト取得デバイス。
  16. 前記顔の特徴モデルは深層畳み込みニューラルネットワークモデルであり、前記特徴レイヤーは畳み込み層、プーリング層及び完全接続層を含むことを特徴とする請求項15に記載のコンテキスト取得デバイス。
  17. 音声対話に基づくコンテキスト取得デバイスであって、少なくとも1つのプロセッサとメモリを含み、
    前記メモリはコンピュータープログラムを記憶し、
    前記少なくとも1つのプロセッサは前記メモリに記憶された前記コンピュータープログラムを実行し、前記少なくとも1つのプロセッサに請求項1〜8のいずれか1項に記載の音声対話に基づくコンテキスト取得方法を実行させることを特徴とする音声対話に基づくコンテキスト取得デバイス。
  18. コンピューター読み取り可能な記憶媒体であって、
    前記コンピューター読み取り可能な記憶媒体にコンピュータープログラムが記憶され、プロセッサは前記コンピュータープログラムを実行する際に、請求項1〜8のいずれか1項に記載の音声対話に基づくコンテキスト取得方法を実現することを特徴とするコンピューター読み取り可能な記憶媒体。
JP2019563817A 2018-07-02 2019-05-16 コンテキスト取得方法及びコンテキスト取得デバイス Active JP6968908B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810709792.8A CN108920639B (zh) 2018-07-02 2018-07-02 基于语音交互的上下文获取方法及设备
CN201810709792.8 2018-07-02
PCT/CN2019/087203 WO2020007129A1 (zh) 2018-07-02 2019-05-16 基于语音交互的上下文获取方法及设备

Publications (2)

Publication Number Publication Date
JP2020529033A JP2020529033A (ja) 2020-10-01
JP6968908B2 true JP6968908B2 (ja) 2021-11-17

Family

ID=64424805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019563817A Active JP6968908B2 (ja) 2018-07-02 2019-05-16 コンテキスト取得方法及びコンテキスト取得デバイス

Country Status (6)

Country Link
US (1) US20210012777A1 (ja)
EP (1) EP3617946B1 (ja)
JP (1) JP6968908B2 (ja)
KR (1) KR20200004826A (ja)
CN (1) CN108920639B (ja)
WO (1) WO2020007129A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10553203B2 (en) 2017-11-09 2020-02-04 International Business Machines Corporation Training data optimization for voice enablement of applications
US10565982B2 (en) 2017-11-09 2020-02-18 International Business Machines Corporation Training data optimization in a service computing system for voice enablement of applications
CN108920639B (zh) * 2018-07-02 2022-01-18 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN109559761A (zh) * 2018-12-21 2019-04-02 广东工业大学 一种基于深度语音特征的脑卒中风险预测方法
CN109462546A (zh) * 2018-12-28 2019-03-12 苏州思必驰信息科技有限公司 一种语音对话历史消息记录方法、装置及系统
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN110210307B (zh) * 2019-04-30 2023-11-28 中国银联股份有限公司 人脸样本库部署方法、基于人脸识别业务处理方法及装置
CN110223718B (zh) * 2019-06-18 2021-07-16 联想(北京)有限公司 一种数据处理方法、装置及存储介质
CN110825765B (zh) * 2019-10-23 2022-10-04 中国建设银行股份有限公司 一种人脸识别的方法和装置
CN112598840A (zh) * 2020-12-16 2021-04-02 广州云从鼎望科技有限公司 基于人脸识别和语音交互的通行设备控制方法、装置、机器可读介质及设备
CN114356275B (zh) * 2021-12-06 2023-12-29 上海小度技术有限公司 交互控制方法、装置、智能语音设备及存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331799A (ja) * 2000-03-16 2001-11-30 Toshiba Corp 画像処理装置および画像処理方法
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
US9053750B2 (en) * 2011-06-17 2015-06-09 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
JP5845686B2 (ja) * 2011-07-26 2016-01-20 ソニー株式会社 情報処理装置、フレーズ出力方法及びプログラム
US9214157B2 (en) * 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
US10509829B2 (en) * 2015-01-21 2019-12-17 Microsoft Technology Licensing, Llc Contextual search using natural language
TWI526879B (zh) * 2015-01-30 2016-03-21 原相科技股份有限公司 互動系統、遙控器及其運作方法
WO2016173326A1 (zh) * 2015-04-30 2016-11-03 北京贝虎机器人技术有限公司 基于主题的交互系统及方法
US10521354B2 (en) * 2015-06-17 2019-12-31 Intel Corporation Computing apparatus and method with persistent memory
CN104951077A (zh) * 2015-06-24 2015-09-30 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法、装置和终端设备
KR20170000748A (ko) * 2015-06-24 2017-01-03 삼성전자주식회사 얼굴 인식 방법 및 장치
EP3312762B1 (en) * 2016-10-18 2023-03-01 Axis AB Method and system for tracking an object in a defined area
CN108154153B (zh) * 2016-12-02 2022-02-22 北京市商汤科技开发有限公司 场景分析方法和系统、电子设备
CN106782545B (zh) * 2016-12-16 2019-07-16 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN106782563B (zh) * 2016-12-28 2020-06-02 上海百芝龙网络科技有限公司 一种智能家居语音交互系统
CN106683680B (zh) * 2017-03-10 2022-03-25 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN107086041A (zh) * 2017-03-27 2017-08-22 竹间智能科技(上海)有限公司 基于加密计算的语音情感分析方法及装置
CN107799126B (zh) * 2017-10-16 2020-10-16 苏州狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN107808145B (zh) * 2017-11-13 2021-03-30 河南大学 基于多模态智能机器人的交互身份鉴别与跟踪方法及系统
CN108172225A (zh) * 2017-12-27 2018-06-15 浪潮金融信息技术有限公司 语音交互方法及机器人、计算机可读存储介质、终端
CN110309691B (zh) * 2018-03-27 2022-12-27 腾讯科技(深圳)有限公司 一种人脸识别方法、装置、服务器及存储介质
CN108920639B (zh) * 2018-07-02 2022-01-18 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备
CN108920640B (zh) * 2018-07-02 2020-12-22 北京百度网讯科技有限公司 基于语音交互的上下文获取方法及设备

Also Published As

Publication number Publication date
KR20200004826A (ko) 2020-01-14
EP3617946B1 (en) 2024-01-03
JP2020529033A (ja) 2020-10-01
EP3617946A4 (en) 2020-12-30
WO2020007129A1 (zh) 2020-01-09
CN108920639A (zh) 2018-11-30
CN108920639B (zh) 2022-01-18
EP3617946A1 (en) 2020-03-04
US20210012777A1 (en) 2021-01-14

Similar Documents

Publication Publication Date Title
JP6968908B2 (ja) コンテキスト取得方法及びコンテキスト取得デバイス
CN111488433B (zh) 一种适用于银行的提升现场体验感的人工智能交互系统
CN108520741B (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
CN108920640B (zh) 基于语音交互的上下文获取方法及设备
US20190237076A1 (en) Augmentation of key phrase user recognition
KR102437944B1 (ko) 음성 웨이크업 방법 및 장치
JP6951712B2 (ja) 対話装置、対話システム、対話方法、およびプログラム
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
JP2021533397A (ja) 話者埋め込みと訓練された生成モデルとを使用する話者ダイアライゼーション
CN112148922A (zh) 会议记录方法、装置、数据处理设备及可读存储介质
CN109086276B (zh) 数据翻译方法、装置、终端及存储介质
CN110853646A (zh) 会议发言角色的区分方法、装置、设备及可读存储介质
US20230206928A1 (en) Audio processing method and apparatus
CN108986825A (zh) 基于语音交互的上下文获取方法及设备
CN112233698A (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN112818909A (zh) 图像更新方法、装置、电子设备及计算机可读介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
WO2024066920A1 (zh) 虚拟场景的对话方法、装置、电子设备、计算机程序产品及计算机存储介质
CN114155860A (zh) 摘要记录方法、装置、计算机设备和存储介质
CN111506183A (zh) 一种智能终端及用户交互方法
CN109961152B (zh) 虚拟偶像的个性化互动方法、系统、终端设备及存储介质
CN112151027A (zh) 基于数字人的特定人询问方法、装置和存储介质
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
CN113762056A (zh) 演唱视频识别方法、装置、设备及存储介质
WO2021047103A1 (zh) 一种语音识别方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200120

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211027

R150 Certificate of patent or registration of utility model

Ref document number: 6968908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150