JP6444530B2 - 音声言語理解システム - Google Patents
音声言語理解システム Download PDFInfo
- Publication number
- JP6444530B2 JP6444530B2 JP2017549836A JP2017549836A JP6444530B2 JP 6444530 B2 JP6444530 B2 JP 6444530B2 JP 2017549836 A JP2017549836 A JP 2017549836A JP 2017549836 A JP2017549836 A JP 2017549836A JP 6444530 B2 JP6444530 B2 JP 6444530B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- word
- network
- words
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 claims description 26
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 description 30
- 238000000034 method Methods 0.000 description 23
- 238000012549 training Methods 0.000 description 16
- 230000003993 interaction Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
多くの自然言語処理(NLP)システムは、BoW又は「ワンホット(one-hot)単語」ベクトルを入力として用いており、これによって、極めて大きな次元の特徴ベクトルがもたらされる。一代替形態は、単語埋め込み(word embedding)であり、この単語埋め込みは、大きな疎の単語特徴ベクトルを、低次元の、密なベクトル表現に射影する。
潜在トピックモデルは、文書の集合から意味情報を発見することができる。情報索出において広く用いられるトピック埋め込み(topic embedding)は、文書をトピックの混合物として扱い、ベクトルを用いてトピック分布を表す。SLUに用いられてきた従来の潜在トピックモデルとしては、確率的潜在意味解析(PLSA)、潜在的ディリクレ配分(LDA)、相関トピックモデル(CTM:Correlated Topic Model)、及びパチンコ配分モデル(PAM:Pachinko Allocation Model)が挙げられ、これら全てがベイズ推定を用いて潜在トピックの分布を求める。大半の潜在変数モデルは生成モデルであり、教師なしトレーニングにおいて用いることができる。
音声言語理解タスクに用いることができる本方法は、意図推定モデル及び目標推定モデルを表す識別手法を用いる。加えて、特徴量設計を介して様々な情報を組み込むことができる。多変量ロジスティック回帰を用いて、分類ターゲットg及び特徴ベクトルXの事後確率P(g|X)を、以下のように求める。
図2に示すように、フィードフォワードアーキテクチャは、BoW層200と出力層203との間に線形隠れ層201及び202を加えることによってベースライン構造を変更する。
図3に示すように、意図理解及び目標推定は、2つの入力シーケンス、すなわち、単語シーケンス310及び意図シーケンス340を有する。これらの2つのシーケンスは、異なる時間スケール上で処理される。単語に用いられる時間スケールは、意図に用いられる時間スケールよりも短くかつ頻繁である。
本発明の実施形態は、低リソースのSLUタスクのための効率的な学習のアーキテクチャを提供する。単語埋め込みは教師なしであり、特定のSLUタスクのためにファインチューニングされる。対話全体にわたる長期特徴を取得するために、MSRNNを実施し、このMSRNNは、2つのサブネットワークを用いて単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。
Claims (6)
- ユーザーの1つ以上の音声発話に対応する単語のシーケンスを受け取るステップと、
前記単語のシーケンスを音声言語理解モジュールに通して、意図のシーケンスを生成するステップと、
前記単語のシーケンスをマルチスケールリカレントニューラルネットワーク(MSRNN)の第1のサブネットワークに通すステップと、
前記意図のシーケンスを前記マルチスケールリカレントニューラルネットワーク(MSRNN)の第2のサブネットワークに通すステップと、
前記第1のサブネットワーク及び前記第2のサブネットワークの出力を結合して、前記ユーザーの目標を予測するステップと、
を含み、
前記ステップはプロセッサにおいて実行される、
音声言語理解(SLU)システム。 - 前記単語のシーケンスは、自動音声認識(ASR)システムの出力である、
請求項1に記載のシステム。 - 前記単語のシーケンスは、前記ユーザーの前記1つ以上の音声発話に対応する単語のセットにわたる確率分布である、
請求項2に記載のシステム。 - 前記目標は、音声対話システムによって実行されるべき動作を出力する対話マネージャに入力される、
請求項1に記載のシステム。 - 前記意図のシーケンスにおける各意図は、前記ユーザーの前記1つ以上の音声発話に対応する意図のセットにわたる確率分布である、
請求項1に記載のシステム。 - 前記マルチスケールリカレントニューラルネットワーク(MSRNN)のネットワークパラメーターは、前記第1のサブネットワーク及び前記第2のサブネットワークについて別個にプレトレーニングされた初期化パラメーターを用いてともにトレーニングされる、
請求項1に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/827,669 US9607616B2 (en) | 2015-08-17 | 2015-08-17 | Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks |
US14/827,669 | 2015-08-17 | ||
PCT/JP2016/073019 WO2017030006A1 (en) | 2015-08-17 | 2016-07-29 | Spoken language understanding system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018513405A JP2018513405A (ja) | 2018-05-24 |
JP6444530B2 true JP6444530B2 (ja) | 2018-12-26 |
Family
ID=56877090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017549836A Active JP6444530B2 (ja) | 2015-08-17 | 2016-07-29 | 音声言語理解システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9607616B2 (ja) |
EP (1) | EP3338280B1 (ja) |
JP (1) | JP6444530B2 (ja) |
CN (1) | CN107924680B (ja) |
WO (1) | WO2017030006A1 (ja) |
Families Citing this family (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10083169B1 (en) * | 2015-08-28 | 2018-09-25 | Google Llc | Topic-based sequence modeling neural networks |
KR102437689B1 (ko) * | 2015-09-16 | 2022-08-30 | 삼성전자주식회사 | 음성 인식 서버 및 그 제어 방법 |
KR102450853B1 (ko) * | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
US10931633B2 (en) * | 2015-12-10 | 2021-02-23 | Verisign, Inc. | Syntactically and/or semantically relevant alternative domain name generation |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US11263514B2 (en) * | 2016-01-13 | 2022-03-01 | Google Llc | Processing and generating sets using recurrent neural networks |
CN107220220A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于文本处理的电子设备和方法 |
US10431205B2 (en) * | 2016-04-27 | 2019-10-01 | Conduent Business Services, Llc | Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network |
US10242667B2 (en) * | 2016-06-03 | 2019-03-26 | Maluuba Inc. | Natural language generation in a spoken dialogue system |
WO2017217661A1 (ko) * | 2016-06-15 | 2017-12-21 | 울산대학교 산학협력단 | 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법 |
US11783173B2 (en) * | 2016-06-23 | 2023-10-10 | Microsoft Technology Licensing, Llc | Multi-domain joint semantic frame parsing |
US10268679B2 (en) * | 2016-12-02 | 2019-04-23 | Microsoft Technology Licensing, Llc | Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network |
KR20180092582A (ko) * | 2017-02-10 | 2018-08-20 | 삼성전자주식회사 | Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법 |
US10691886B2 (en) * | 2017-03-09 | 2020-06-23 | Samsung Electronics Co., Ltd. | Electronic apparatus for compressing language model, electronic apparatus for providing recommendation word and operation methods thereof |
US11354565B2 (en) * | 2017-03-15 | 2022-06-07 | Salesforce.Com, Inc. | Probability-based guider |
US10755174B2 (en) * | 2017-04-11 | 2020-08-25 | Sap Se | Unsupervised neural attention model for aspect extraction |
US20180307753A1 (en) * | 2017-04-21 | 2018-10-25 | Qualcomm Incorporated | Acoustic event enabled geographic mapping |
US10642875B2 (en) * | 2017-04-28 | 2020-05-05 | International Business Machines Corporation | Accurate relationship extraction with word embeddings using minimal training data |
CN107153642A (zh) * | 2017-05-16 | 2017-09-12 | 华北电力大学 | 一种基于神经网络识别文本评论情感倾向的分析方法 |
US10853724B2 (en) | 2017-06-02 | 2020-12-01 | Xerox Corporation | Symbolic priors for recurrent neural network based semantic parsing |
CN107452374B (zh) * | 2017-07-11 | 2020-05-05 | 上海交通大学 | 基于单向自标注辅助信息的多视角语言识别方法 |
JP7112075B2 (ja) * | 2017-08-07 | 2022-08-03 | 国立研究開発法人情報通信研究機構 | 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法 |
KR102410820B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
US10515625B1 (en) | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
CN107578092A (zh) * | 2017-09-01 | 2018-01-12 | 广州智慧城市发展研究院 | 一种基于情绪和意见挖掘的情感复合分析方法及系统 |
EP3488354B1 (en) * | 2017-10-12 | 2022-04-20 | Google LLC | Determining state of automated assistant dialog |
US10453454B2 (en) * | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
KR101932263B1 (ko) * | 2017-11-03 | 2018-12-26 | 주식회사 머니브레인 | 적시에 실질적 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 |
CN110119507A (zh) * | 2018-02-05 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
US10431207B2 (en) | 2018-02-06 | 2019-10-01 | Robert Bosch Gmbh | Methods and systems for intent detection and slot filling in spoken dialogue systems |
US10713441B2 (en) * | 2018-03-23 | 2020-07-14 | Servicenow, Inc. | Hybrid learning system for natural language intent extraction from a dialog utterance |
US10902211B2 (en) * | 2018-04-25 | 2021-01-26 | Samsung Electronics Co., Ltd. | Multi-models that understand natural language phrases |
CN108682417B (zh) * | 2018-05-14 | 2020-05-19 | 中国科学院自动化研究所 | 语音识别中的小数据语音声学建模方法 |
US10956790B1 (en) * | 2018-05-29 | 2021-03-23 | Indico | Graphical user interface tool for dataset analysis |
WO2019231346A1 (ru) * | 2018-05-31 | 2019-12-05 | Публичное Акционерное Общество "Сбербанк России" | Способ и система для выстраивания диалога с пользователем в удобном для пользователя канале |
CN108962224B (zh) * | 2018-07-19 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 口语理解和语言模型联合建模方法、对话方法及系统 |
RU2720952C2 (ru) | 2018-09-14 | 2020-05-15 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для создания рекомендации цифрового содержимого |
RU2720899C2 (ru) | 2018-09-14 | 2020-05-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для определения зависящих от пользователя пропорций содержимого для рекомендации |
RU2725659C2 (ru) | 2018-10-08 | 2020-07-03 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для оценивания данных о взаимодействиях пользователь-элемент |
US20220004545A1 (en) * | 2018-10-13 | 2022-01-06 | IPRally Technologies Oy | Method of searching patent documents |
US11037546B2 (en) * | 2018-11-15 | 2021-06-15 | Microsoft Technology Licensing, Llc | Nudging neural conversational model with domain knowledge |
CN109492759B (zh) * | 2018-12-17 | 2022-05-20 | 北京百度网讯科技有限公司 | 神经网络模型预测方法、装置和终端 |
CN109545190B (zh) * | 2018-12-29 | 2021-06-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
US10957320B2 (en) * | 2019-01-25 | 2021-03-23 | International Business Machines Corporation | End-of-turn detection in spoken dialogues |
US11935539B1 (en) * | 2019-01-31 | 2024-03-19 | Alan AI, Inc. | Integrating voice controls into applications |
US11955120B1 (en) | 2019-01-31 | 2024-04-09 | Alan AI, Inc. | Systems and methods for integrating voice controls into applications |
JP7103264B2 (ja) * | 2019-02-20 | 2022-07-20 | 日本電信電話株式会社 | 生成装置、学習装置、生成方法及びプログラム |
CN111738010B (zh) * | 2019-03-20 | 2023-10-17 | 百度在线网络技术(北京)有限公司 | 用于生成语义匹配模型的方法和装置 |
US10991365B2 (en) * | 2019-04-08 | 2021-04-27 | Microsoft Technology Licensing, Llc | Automated speech recognition confidence classifier |
US10860809B2 (en) | 2019-04-09 | 2020-12-08 | Sas Institute Inc. | Word embeddings and virtual terms |
CN110222848A (zh) * | 2019-05-05 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 计算机执行的集成模型的确定方法及装置 |
CN110309317B (zh) * | 2019-05-22 | 2021-07-23 | 中国传媒大学 | 中文语料的词向量生成方法、系统、电子装置及介质 |
CN110211573A (zh) * | 2019-05-28 | 2019-09-06 | 重庆邮电大学 | 一种基于神经网络模型的任务驱动型对话决策方法 |
US11487945B2 (en) | 2019-07-02 | 2022-11-01 | Servicenow, Inc. | Predictive similarity scoring subsystem in a natural language understanding (NLU) framework |
US11599768B2 (en) | 2019-07-18 | 2023-03-07 | International Business Machines Corporation | Cooperative neural network for recommending next user action |
US11663814B2 (en) * | 2019-08-23 | 2023-05-30 | Arm Limited | Skip predictor for pre-trained recurrent neural networks |
RU2757406C1 (ru) | 2019-09-09 | 2021-10-15 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для обеспечения уровня сервиса при рекламе элемента контента |
KR20210062838A (ko) * | 2019-11-22 | 2021-06-01 | 엘지전자 주식회사 | 인공지능 기반의 음성처리 방법 |
CN111274789B (zh) * | 2020-02-06 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 文本预测模型的训练方法及装置 |
CN111597342B (zh) * | 2020-05-22 | 2024-01-26 | 北京慧闻科技(集团)有限公司 | 一种多任务意图分类方法、装置、设备及存储介质 |
CN112347247B (zh) * | 2020-10-29 | 2023-10-13 | 南京大学 | 基于LDA和Bert的特定类别文本标题二分类方法 |
US20220199078A1 (en) * | 2020-12-22 | 2022-06-23 | Samsung Electronics Co., Ltd. | Electronic apparatus, system comprising electronic apparatus and server and controlling method thereof |
CN113707131B (zh) * | 2021-08-30 | 2024-04-16 | 中国科学技术大学 | 语音识别方法、装置、设备及存储介质 |
US20230111052A1 (en) * | 2021-10-13 | 2023-04-13 | International Business Machines Corporation | Self-learning annotations to generate rules to be utilized by rule-based system |
WO2023062790A1 (ja) * | 2021-10-14 | 2023-04-20 | 日本電信電話株式会社 | ログデータ解析装置、ログデータ解析方法、およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1207517B1 (en) * | 2000-11-16 | 2007-01-03 | Sony Deutschland GmbH | Method for recognizing speech |
US8086462B1 (en) * | 2004-09-09 | 2011-12-27 | At&T Intellectual Property Ii, L.P. | Automatic detection, summarization and reporting of business intelligence highlights from automated dialog systems |
US9009046B1 (en) * | 2005-09-27 | 2015-04-14 | At&T Intellectual Property Ii, L.P. | System and method for disambiguating multiple intents in a natural language dialog system |
US8442828B2 (en) | 2005-12-02 | 2013-05-14 | Microsoft Corporation | Conditional model for natural language understanding |
CN101645064B (zh) * | 2008-12-16 | 2011-04-06 | 中国科学院声学研究所 | 一种浅层自然口语理解系统及方法 |
JP2010224194A (ja) * | 2009-03-23 | 2010-10-07 | Sony Corp | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム |
CN102662931B (zh) * | 2012-04-13 | 2015-03-25 | 厦门大学 | 一种基于协同神经网络的语义角色标注方法 |
US10867597B2 (en) | 2013-09-02 | 2020-12-15 | Microsoft Technology Licensing, Llc | Assignment of semantic labels to a sequence of words using neural network architectures |
CN103458056B (zh) * | 2013-09-24 | 2017-04-26 | 世纪恒通科技股份有限公司 | 自动外呼系统基于自动分类技术的语音意图判定系统 |
DE112014005354T5 (de) * | 2013-11-25 | 2016-08-04 | Mitsubishi Electric Corporation | Dialog-management-system und dialog-management-verfahren |
US9239828B2 (en) * | 2013-12-05 | 2016-01-19 | Microsoft Technology Licensing, Llc | Recurrent conditional random fields |
CN104951428B (zh) * | 2014-03-26 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
CN104166643A (zh) * | 2014-08-19 | 2014-11-26 | 南京金娃娃软件科技有限公司 | 一种智能问答系统中的对话行为分析方法 |
CN104360897B (zh) * | 2014-10-29 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
-
2015
- 2015-08-17 US US14/827,669 patent/US9607616B2/en active Active
-
2016
- 2016-07-29 WO PCT/JP2016/073019 patent/WO2017030006A1/en active Application Filing
- 2016-07-29 CN CN201680046793.8A patent/CN107924680B/zh active Active
- 2016-07-29 EP EP16760808.2A patent/EP3338280B1/en active Active
- 2016-07-29 JP JP2017549836A patent/JP6444530B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US9607616B2 (en) | 2017-03-28 |
JP2018513405A (ja) | 2018-05-24 |
CN107924680B (zh) | 2021-08-31 |
US20170053646A1 (en) | 2017-02-23 |
WO2017030006A1 (en) | 2017-02-23 |
EP3338280A1 (en) | 2018-06-27 |
EP3338280B1 (en) | 2019-09-11 |
CN107924680A (zh) | 2018-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6444530B2 (ja) | 音声言語理解システム | |
Deng et al. | Use of kernel deep convex networks and end-to-end learning for spoken language understanding | |
Chien et al. | Bayesian recurrent neural network for language modeling | |
Shannon | Optimizing expected word error rate via sampling for speech recognition | |
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
US11941366B2 (en) | Context-based multi-turn dialogue method and storage medium | |
US20170372694A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
CN110085215B (zh) | 一种基于生成对抗网络的语言模型数据增强方法 | |
WO2017094911A1 (en) | Method for processing utterances | |
CN114830148A (zh) | 可控制有基准的文本生成 | |
US11580145B1 (en) | Query rephrasing using encoder neural network and decoder neural network | |
Cui et al. | Multi-view and multi-objective semi-supervised learning for hmm-based automatic speech recognition | |
Kadyan et al. | A comparative study of deep neural network based Punjabi-ASR system | |
Tong et al. | Cross-lingual adaptation of a CTC-based multilingual acoustic model | |
Ranjan et al. | A comparative study on code-mixed data of Indian social media vs formal text | |
Mou et al. | Backward and forward language modeling for constrained sentence generation | |
Lugosch et al. | DONUT: CTC-based query-by-example keyword spotting | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
CN111026848B (zh) | 一种基于相似上下文和强化学习的中文词向量生成方法 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
Song et al. | Exploiting different word clusterings for class-based RNN language modeling in speech recognition | |
Alisamir et al. | An end-to-end deep learning model to recognize Farsi speech from raw input | |
Heymann et al. | Improving ctc using stimulated learning for sequence modeling | |
Gupta et al. | IIT (BHU) System for Indo-Aryan language identification (ILI) at VarDial 2018 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6444530 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |