JP6787770B2 - 言語記憶方法及び言語対話システム - Google Patents
言語記憶方法及び言語対話システム Download PDFInfo
- Publication number
- JP6787770B2 JP6787770B2 JP2016242297A JP2016242297A JP6787770B2 JP 6787770 B2 JP6787770 B2 JP 6787770B2 JP 2016242297 A JP2016242297 A JP 2016242297A JP 2016242297 A JP2016242297 A JP 2016242297A JP 6787770 B2 JP6787770 B2 JP 6787770B2
- Authority
- JP
- Japan
- Prior art keywords
- words
- vector
- word
- database
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001343 mnemonic effect Effects 0.000 title description 4
- 239000013598 vector Substances 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 81
- 230000004044 response Effects 0.000 claims description 79
- 238000007477 logistic regression Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Description
以下、図面を参照して本発明の実施の形態について説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
11 マイク
12 音声認識器
13 対話制御器
14 応答データベース
15 音声合成器
16 スピーカー
21 対話ログデータベース
22 応答データベース作成モジュール
23 単語ベクトルデータベース
31 コーパス
Claims (5)
- プログラムを実行する演算部とデータを蓄積するデータベースとを有するコンピュータの演算処理を用いて、発話者が発した言葉を対話ログデータベースに蓄積し、当該対話ログデータベースに蓄積された言葉を、前記発話者が発した言葉への応答に利用する言葉を記憶する応答データベース内の応答データとして採用するか否かを前記演算部における演算処理により決定する言語記憶方法であって、
前記発話者が発した前記言葉を対話ログデータベースに蓄積する対話ログ蓄積ステップと、
前記対話ログデータベースに蓄積された前記言葉を、単語毎に予め作成された単語ベクトルを用いてベクトル化するベクトル化ステップと、
ベクトル化した前記言葉を前記応答データとして採用するか否かを判断する判断ステップと、
前記応答データとして採用すると判断された言葉を前記応答データベースに蓄積する記憶ステップと、を有し、
前記ベクトル化ステップと、前記判断ステップと、の間に前記ベクトル化ステップでベクトル化された言葉のベクトルの次元数を減じる低次元化ステップを有し、
前記判断ステップでは、前記低次元化ステップにおいて、次元数が減じられた前記言葉のベクトルが採用群と不採用群のいずれの群に属するかを判断し、
前記記憶ステップでは、前記採用群に属すると判断された前記言葉を前記応答データベースに蓄積する言語記憶方法。 - 前記低次元化ステップでは、前記ベクトル化ステップでベクトル化された前記言葉のベクトルのグローバル構造及びローカル構造を維持した状態で前記言葉のベクトルの次元数を減じる請求項1に記載の言語記憶方法。
- 前記低次元化ステップでは、t−SNE(t-distributed Stochastic Neighbor Embedding)、SNE(Stochastic Neighbor Embedding)、及び、主成分分析の1つを用いて前記言葉のベクトルの次元数を減じる請求項1又は2に記載の言語記憶方法。
- 前記判断ステップでは、予め準備した採用する言葉と不採用とする言葉とを分類可能なように学習をした、混合ガウスモデル、SVM(Support Vector Machine)、及び、ロジスティック回帰分析の1つを用いて、前記低次元化ステップにより生成された前記言葉を採用するか否かを判断する請求項1乃至3のいずれか1つに記載の言語記憶方法。
- 発話者の発した言葉を認識する音声認識器と、
前記音声認識器により認識された前記言葉を蓄積する対話ログデータベースと、
前記音声認識器により認識された前記言葉に応答するための前記言葉を記憶する応答データベースと、
前記音声認識器により認識された前記言葉に応答するための前記言葉を前記応答データベースから選択する対話制御器と、
前記対話制御器により選択された前記言葉を音声信号に変換する音声合成器と、
前記対話ログデータベースに蓄積された前記言葉を前記応答データベースに蓄積する言葉として採用するか否かを判断する応答データベース作成モジュールと、を有し、
前記応答データベース作成モジュールでは、
前記対話ログデータベースに蓄積された前記言葉を、単語毎に予め作成された単語ベクトルを用いてベクトル化するベクトル化ステップと、
前記ベクトル化ステップでベクトル化された言葉のベクトルの次元数を減じる低次元化ステップと、
低次元化ステップによりベクトルの次元数が減じられた前記言葉を応答データとして採用するか否かを判断する判断ステップと、
前記応答データベースに格納される応答データとして採用すると判断された言葉を前記応答データベースに蓄積する記憶ステップと、を有し、
前記判断ステップでは、前記低次元化ステップにおいて、次元数が減じられた前記言葉のベクトルが採用群と不採用群のいずれの群に属するかを判断し、
前記記憶ステップでは、前記採用群に属すると判断された前記言葉を前記応答データベースに蓄積する言語対話システム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016242297A JP6787770B2 (ja) | 2016-12-14 | 2016-12-14 | 言語記憶方法及び言語対話システム |
US15/834,129 US10510347B2 (en) | 2016-12-14 | 2017-12-07 | Language storage method and language dialog system |
EP17206353.9A EP3336714A1 (en) | 2016-12-14 | 2017-12-11 | Language dialog system with acquisition of replys from user input |
CN201711317795.9A CN108228732B (zh) | 2016-12-14 | 2017-12-12 | 语言存储方法和语言对话系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016242297A JP6787770B2 (ja) | 2016-12-14 | 2016-12-14 | 言語記憶方法及び言語対話システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018097191A JP2018097191A (ja) | 2018-06-21 |
JP6787770B2 true JP6787770B2 (ja) | 2020-11-18 |
Family
ID=60654824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016242297A Active JP6787770B2 (ja) | 2016-12-14 | 2016-12-14 | 言語記憶方法及び言語対話システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10510347B2 (ja) |
EP (1) | EP3336714A1 (ja) |
JP (1) | JP6787770B2 (ja) |
CN (1) | CN108228732B (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11188824B2 (en) | 2017-02-17 | 2021-11-30 | Google Llc | Cooperatively training and/or using separate input and subsequent content neural networks for information retrieval |
US11373086B2 (en) * | 2017-02-17 | 2022-06-28 | Google Llc | Cooperatively training and/or using separate input and response neural network models for determining response(s) for electronic communications |
US10915707B2 (en) * | 2017-10-20 | 2021-02-09 | MachineVantage, Inc. | Word replaceability through word vectors |
US10937417B2 (en) * | 2019-05-31 | 2021-03-02 | Clinc, Inc. | Systems and methods for automatically categorizing unstructured data and improving a machine learning-based dialogue system |
CN110363115B (zh) * | 2019-06-28 | 2021-10-15 | 上海交通大学 | 基于ais轨迹数据的船舶作业异常半监督实时检测方法 |
EP4022287A1 (en) | 2019-08-28 | 2022-07-06 | Ventana Medical Systems, Inc. | Systems and methods for assessing specimen fixation duration and quality using vibrational spectroscopy |
CN110473540B (zh) * | 2019-08-29 | 2022-05-31 | 京东方科技集团股份有限公司 | 语音交互方法及系统、终端设备、计算机设备及介质 |
US11727926B1 (en) * | 2020-09-18 | 2023-08-15 | Amazon Technologies, Inc. | Systems and methods for noise reduction |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030154072A1 (en) * | 1998-03-31 | 2003-08-14 | Scansoft, Inc., A Delaware Corporation | Call analysis |
JP4304359B2 (ja) | 2002-02-25 | 2009-07-29 | 日本電気株式会社 | 対話エージェント方式 |
KR100484493B1 (ko) * | 2002-12-12 | 2005-04-20 | 한국전자통신연구원 | 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 |
US8392436B2 (en) * | 2008-02-07 | 2013-03-05 | Nec Laboratories America, Inc. | Semantic search via role labeling |
CN101923857A (zh) * | 2009-06-17 | 2010-12-22 | 复旦大学 | 一种人机交互的可扩展语音识别方法 |
CN101604204B (zh) * | 2009-07-09 | 2011-01-05 | 北京科技大学 | 智能情感机器人分布式认知系统 |
KR101252397B1 (ko) * | 2011-06-02 | 2013-04-08 | 포항공과대학교 산학협력단 | 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법 |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
US9189742B2 (en) * | 2013-11-20 | 2015-11-17 | Justin London | Adaptive virtual intelligent agent |
CN105786798B (zh) * | 2016-02-25 | 2018-11-02 | 上海交通大学 | 一种人机交互中自然语言意图理解方法 |
CN107564513B (zh) * | 2016-06-30 | 2020-09-08 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US20180052884A1 (en) * | 2016-08-16 | 2018-02-22 | Ebay Inc. | Knowledge graph construction for intelligent online personal assistant |
-
2016
- 2016-12-14 JP JP2016242297A patent/JP6787770B2/ja active Active
-
2017
- 2017-12-07 US US15/834,129 patent/US10510347B2/en active Active
- 2017-12-11 EP EP17206353.9A patent/EP3336714A1/en not_active Ceased
- 2017-12-12 CN CN201711317795.9A patent/CN108228732B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
EP3336714A1 (en) | 2018-06-20 |
CN108228732A (zh) | 2018-06-29 |
CN108228732B (zh) | 2021-11-02 |
US10510347B2 (en) | 2019-12-17 |
JP2018097191A (ja) | 2018-06-21 |
US20180166077A1 (en) | 2018-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6787770B2 (ja) | 言語記憶方法及び言語対話システム | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
US20170372694A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
US20120316879A1 (en) | System for detecting speech interval and recognizing continous speech in a noisy environment through real-time recognition of call commands | |
Wang et al. | Using parallel tokenizers with DTW matrix combination for low-resource spoken term detection | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
Qayyum et al. | Quran reciter identification: A deep learning approach | |
CN111916066A (zh) | 基于随机森林的语音声调识别方法及系统 | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
Marlina et al. | Makhraj recognition of Hijaiyah letter for children based on Mel-Frequency Cepstrum Coefficients (MFCC) and Support Vector Machines (SVM) method | |
Azam et al. | Speaker verification using adapted bounded Gaussian mixture model | |
Rehman et al. | Feature selection and classification of speech dataset for gender identification: A machine learning approach | |
Sarker et al. | Emotion recognition from speech based on relevant feature and majority voting | |
Aishwarya et al. | Kannada speech recognition system for Aphasic people | |
JPH064097A (ja) | 話者認識方法 | |
Gamage et al. | An i-vector gplda system for speech based emotion recognition | |
Cai et al. | Deep speaker embeddings with convolutional neural network on supervector for text-independent speaker recognition | |
KR101539112B1 (ko) | 음성 인식을 위한 감성 분류 장치 및 분류 방법 | |
KR101229108B1 (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
KR20160015005A (ko) | 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치 | |
Yadav et al. | Speech emotion classification using machine learning | |
JP2021005122A (ja) | 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 | |
Bird et al. | Lstm and gpt-2 synthetic speech transfer learning for speaker recognition to overcome data scarcity | |
US20230317085A1 (en) | Audio processing device, audio processing method, recording medium, and audio authentication system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190912 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6787770 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |