JP7054607B2 - 生成装置、生成方法および生成プログラム - Google Patents
生成装置、生成方法および生成プログラム Download PDFInfo
- Publication number
- JP7054607B2 JP7054607B2 JP2017052981A JP2017052981A JP7054607B2 JP 7054607 B2 JP7054607 B2 JP 7054607B2 JP 2017052981 A JP2017052981 A JP 2017052981A JP 2017052981 A JP2017052981 A JP 2017052981A JP 7054607 B2 JP7054607 B2 JP 7054607B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- response
- utterance
- model
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 73
- 230000004044 response Effects 0.000 claims description 170
- 230000008569 process Effects 0.000 claims description 55
- 230000000717 retained effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 102100023927 Asparagine synthetase [glutamine-hydrolyzing] Human genes 0.000 description 1
- 101100380329 Homo sapiens ASNS gene Proteins 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
まず、図1を用いて、生成処理の一例となる情報提供装置が実行する生成処理の一例について説明する。図1は、実施形態に係る情報提供装置が実行する処理の一例を示す図である。なお、以下の説明では、情報提供装置10が実行する処理として、利用者Uの発話に対する応答を生成して出力する処理の一例について説明する。すなわち、情報提供装置10は、利用者Uとの対話を実現する対話システムである。
ここで、従来技術においては、利用者Uの発話から段階的に実行される複数の処理を実行することで、利用者Uの発話に対する応答を生成した。例えば、従来技術においては、利用者Uが発話した音声データを解析してテキスト化する音声認識処理、音声認識処理の結果であるテキストを用いて、利用者Uの発話の意図を解析する意図解析処理、および意図解析処理の結果を用いて応答を生成する応答生成処理を実行し、発話に対する応答を生成する。
ここで、情報提供装置10は、発話から応答を直接するモデルであれば、任意のモデルを応答モデルとして採用可能である。例えば、情報提供装置10は、RNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)を応答モデルとし、発話の音声データから応答の音声データを直接生成するように応答モデルの学習を行ってもよい。また、情報提供装置10は、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、応答を生成してもよい。より具体的には、情報提供装置10は、受付けられた発話の音声データを全て入力した後で応答となる音声データを出力する応答モデルを用いて、応答を生成してもよい。例えば、このような応答モデルは、RNNの拡張であるLSTM(Long short-term memory)を含むRNN(RNN-LSTM)により実現される。
ここで、図1を用いて、情報提供装置10が実行する処理の一例について説明する。まず、情報提供装置10は、利用者端末100から発話#1として、発話音声を受付ける(ステップS1)。このような場合、情報提供装置10は、発話音声を所定の時間間隔で分割する(ステップS2)。例えば、情報提供装置10は、発話音声TS1を所定の時間間隔で分割した発話音声TS11~TS20を生成する。
ここで、情報提供装置10は、応答モデルRMにおける各種のパラメータ(例えば、応答モデルが有する各ノード間の接続係数)を同時に学習するのであれば、任意の学習処理を実行してよい。例えば、情報提供装置10は、発話音声と、その発話音声が入力された際に応答モデルRMに出力させる応答音声との組を正解ペアとして取得する。このような場合、情報提供装置10は、正解ペアの発話音声が入力された際に、正解ペアの応答音声を出力するように、バックプロパゲーション等の処理を実行することで、応答モデルRMが有するパラメータの修正を行う。すなわち、情報提供装置10は、ある1つの学習データを用いた修正の対象となりうるパラメータ群であって、処理を実行する際に1つのモデルとして利用されるパラメータ群により構成されたモデルであれば、任意の応答モデルを使用して良い。
以下、上記した情報提供装置10が有する機能構成の一例について説明する。図2は、実施形態に係る情報提供装置の構成例を示す図である。図2に示すように、情報提供装置10は、通信部20、記憶部30、および制御部40を有する。
上述した処理により、情報提供装置10は、段階的に処理が行われることによる誤りの蓄積を防ぐことができる。例えば、図3は、実施形態に係る情報提供装置の効果の一例を示す図である。例えば、図3の左側に示すように、従来の応答生成処理においては、利用者Uの発話#1から音声認識処理、意図解析処理、および応答生成処理を段階的に実行することで、発話#1に対する応答#1を生成した。しかしながら、このような処理では、音声認識処理において認識誤りが生じた場合、意図解析処理において意図解析誤りが生じた場合、若しくは、応答生成処理において発話が不十分なことによる発話誤りが生じた場合には、後段の処理等で誤りが修正されることなく応答が生成されるため、誤りが蓄積してしまう。
続いて、図4を用いて、情報提供装置10が実行する処理の流れの一例を説明する。図4は、実施形態に係る情報提供装置が実行する生成処理の流れの一例を示すフローチャートである。
上記では、情報提供装置10による決定処理や強化学習の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、情報提供装置10が実行する提供処理や決定処理のバリエーションについて説明する。
上述した例では、情報提供装置10は、発話から応答を生成する際に段階的に行われていた複数の処理を、1つのモデルで実行することで、誤りの蓄積を防ぐとともに、学習を容易にした。しかしながら、実施形態は、これに限定されるものではない。例えば、情報提供装置10は、画像解析や各種認証処理等、段階的に複数の処理が行われるような処理であれば、任意の処理について、単一のモデルを用いた処理を実行して良い。
情報提供装置10は、利用者端末100とのやり取りを行うフロントエンドサーバと、生成処理を実行するバックエンドサーバとが連携して動作することにより、実現されてもよい。このような場合、フロントエンドサーバには、図2に示す受付部41が配置され、バックエンドサーバには、分割部42、生成部43、出力部44、および学習部45が配置される。
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、逆に、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、上述した実施形態に係る情報提供装置10は、例えば図5に示すような構成のコンピュータ1000によって実現される。図5は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
上述したように、情報提供装置10は、利用者Uの発話を受付ける。そして、情報提供装置10は、発話から応答を直接出力するようにパラメータ群が同時に学習された単一のモデルに利用者Uの発話を入力し、発話に対する応答を生成する。このため、情報提供装置10は、誤りの蓄積を防ぐことができ、モデルの学習を容易にすることもできるので、応答の精度を容易に向上させることができる。
20 通信部
30 記憶部
31 応答モデルデータベース
40 制御部
41 受付部
42 分割部
43 生成部
44 出力部
45 学習部
100 利用者端末
200 外部サーバ
Claims (3)
- 利用者が発話した音声を受付ける受付部と、
前記受付部により受付けられた音声を所定の時間間隔で分割する分割部と、
発話の音声を分割した各分割音声の特徴量を入力した場合に、当該発話の内容に対応する内容の応答の音声を出力するようにパラメータ群が学習された単一のモデルに、前記受付部が受け付けた音声を分割した各分割音声の特徴量を入力し、前記発話に対する応答の音声を生成する生成部と、
を有し、
前記生成部は、前記モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、前記応答を生成し、
前記生成部は、前記受付部により受付けられた音声を全て入力した後で前記モデルが出力する音声を前記応答の音声とする
ことを特徴とする生成装置。 - 生成装置が実行する生成方法であって、
利用者が発話した音声を受付ける受付工程と、
発話の音声を分割した各分割音声の特徴量を入力した場合に、当該発話の内容に対応する内容の応答の音声を出力するようにパラメータ群が学習された単一のモデルに、前記受付工程が受け付けた音声を分割した各分割音声の特徴量を入力し、前記発話に対する応答の音声を生成する生成工程と、
を含み、
前記生成工程は、前記モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、前記応答を生成し、
前記生成工程は、前記受付工程により受付けられた音声を全て入力した後で前記モデルが出力する音声を前記応答の音声とする
ことを特徴とする生成方法。 - 利用者が発話した音声を受付ける受付手順と、
発話の音声を分割した各分割音声の特徴量を入力した場合に、当該発話の内容に対応する内容の応答の音声を出力するようにパラメータ群が学習された単一のモデルに、前記受付手順が受け付けた音声を分割した各分割音声の特徴量を入力し、前記発話に対する応答の音声を生成する生成手順と
をコンピュータに実行させるための生成プログラムであって、
前記生成手順は、前記モデルとして、入力された特徴量に応じた情報を所定の期間保持し、新たに入力された特徴量と保持した情報とに基づく情報を出力するモデルを用いて、前記応答を生成し、
前記生成手順は、前記受付手順により受付けられた音声を全て入力した後で前記モデルが出力する音声を前記応答の音声とする
ことを特徴とする生成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017052981A JP7054607B2 (ja) | 2017-03-17 | 2017-03-17 | 生成装置、生成方法および生成プログラム |
US15/890,666 US20180268816A1 (en) | 2017-03-17 | 2018-02-07 | Generating device, generating method, and non-transitory computer readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017052981A JP7054607B2 (ja) | 2017-03-17 | 2017-03-17 | 生成装置、生成方法および生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018155939A JP2018155939A (ja) | 2018-10-04 |
JP7054607B2 true JP7054607B2 (ja) | 2022-04-14 |
Family
ID=63519429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017052981A Active JP7054607B2 (ja) | 2017-03-17 | 2017-03-17 | 生成装置、生成方法および生成プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180268816A1 (ja) |
JP (1) | JP7054607B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SG10201809737UA (en) * | 2018-11-01 | 2020-06-29 | Rakuten Inc | Information processing device, information processing method, and program |
JP7206898B2 (ja) * | 2018-12-25 | 2023-01-18 | 富士通株式会社 | 学習装置、学習方法および学習プログラム |
KR102253032B1 (ko) * | 2019-05-03 | 2021-05-17 | 에스케이텔레콤 주식회사 | 파형 데이터 분석 장치 및 이를 학습시키는 방법 |
KR20220120934A (ko) * | 2021-02-24 | 2022-08-31 | 삼성전자주식회사 | 음성 명령 처리 장치 및 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0321289A (ja) * | 1989-06-19 | 1991-01-30 | Matsushita Electric Ind Co Ltd | 音声認識玩具 |
JP2001005488A (ja) * | 1999-06-18 | 2001-01-12 | Mitsubishi Electric Corp | 音声対話システム |
JP4534769B2 (ja) * | 2005-01-24 | 2010-09-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10019983B2 (en) * | 2012-08-30 | 2018-07-10 | Aravind Ganapathiraju | Method and system for predicting speech recognition performance using accuracy scores |
-
2017
- 2017-03-17 JP JP2017052981A patent/JP7054607B2/ja active Active
-
2018
- 2018-02-07 US US15/890,666 patent/US20180268816A1/en not_active Abandoned
Non-Patent Citations (3)
Title |
---|
中川聖一、「[招待講演]再訪:ニューラルネットワークによる音声処理」、電子情報通信学会技術研究報告、2013年7月、SP2013-59、p.37~44 |
増田嵩志、張豪逸、磯健一、「LSTMを用いたキーワードスポッティング」、日本音響学会2017年春季研究発表会講演論文集、2017年3月15日、2-P-15、p.177~178 |
磯健一、「音声認識におけるDeep Learningの活用」、日本神経回路学会誌、2017年3月5日、Vol.24、No.1、p27~38 |
Also Published As
Publication number | Publication date |
---|---|
JP2018155939A (ja) | 2018-10-04 |
US20180268816A1 (en) | 2018-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7054607B2 (ja) | 生成装置、生成方法および生成プログラム | |
US20210264291A1 (en) | Model training method and apparatus based on gradient boosting decision tree | |
US20190005399A1 (en) | Learning device, generation device, learning method, generation method, and non-transitory computer readable storage medium | |
JP2020522817A (ja) | 意味分析方法、装置、および記憶媒体 | |
WO2022121257A1 (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
CN108804526B (zh) | 兴趣确定系统、兴趣确定方法及存储介质 | |
CN112818025B (zh) | 试题生成方法、装置和系统、计算机存储介质和程序产品 | |
JP6199517B1 (ja) | 決定装置、決定方法および決定プログラム | |
JP6958723B2 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
JP6824795B2 (ja) | 修正装置、修正方法および修正プログラム | |
JP2019079088A (ja) | 学習装置、プログラムパラメータおよび学習方法 | |
CN112863489B (zh) | 语音识别方法、装置、设备及介质 | |
JP2020034704A (ja) | テキスト生成装置、テキスト生成プログラムおよびテキスト生成方法 | |
JP6568175B2 (ja) | 学習装置、生成装置、分類装置、学習方法、学習プログラム、および動作プログラム | |
JP2020027609A (ja) | 応答推論方法及び装置 | |
CN109857910B (zh) | Xml文件的生成方法、装置、计算机设备及存储介质 | |
JP6963988B2 (ja) | 提供装置、提供方法および提供プログラム | |
JP6392950B1 (ja) | 検出装置、検出方法、および検出プログラム | |
US20200382453A1 (en) | Chat bot utilizing metaphors to both relay and obtain information | |
JP6775366B2 (ja) | 選択装置、および選択方法 | |
JP6679360B2 (ja) | 情報提供装置および情報提供方法 | |
US20220004817A1 (en) | Data analysis system, learning device, method, and program | |
KR20210052496A (ko) | Ai 창작물의 검증 장치 | |
WO2019171027A1 (en) | Ability classification | |
JP6429819B2 (ja) | 情報提供装置および情報提供方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200427 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200923 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201223 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20201223 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20210105 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20210112 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20210205 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20210209 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20210831 |
|
C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20211124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220124 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20220201 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20220308 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20220308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7054607 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |