JP2019070799A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2019070799A5 JP2019070799A5 JP2018189730A JP2018189730A JP2019070799A5 JP 2019070799 A5 JP2019070799 A5 JP 2019070799A5 JP 2018189730 A JP2018189730 A JP 2018189730A JP 2018189730 A JP2018189730 A JP 2018189730A JP 2019070799 A5 JP2019070799 A5 JP 2019070799A5
- Authority
- JP
- Japan
- Prior art keywords
- token
- new
- token sequence
- rewrite
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 claims 1
- 238000000034 method Methods 0.000 claims 1
Claims (20)
- クエリ結果をユーザに提供する際に、ユーザクエリの入力トークンシーケンスを書き換えるためのコンピュータ実装方法であって、
コンピュータネットワークを介して、遠隔クライアント装置上で動作するアプリケーションから、システムユーザからのユーザクエリを受信するステップを含み、前記ユーザクエリは、前記入力トークンシーケンスを含み、
正方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの正方向確率を決定するステップと、
反方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの反方向確率を決定するステップと、
低い反方向確率を有する第1のトークンの後方且つ低い正方向確率を有する隣接の第2のトークンの前方の位置に新たなトークンを挿入することによって、新たな書換えトークンシーケンスを作成するステップと、
前記新たな書換えトークンシーケンスを処理することによって、結果を生成するステップと、
前記処理による前記結果を示す応答を前記システムユーザに提供するステップとを含む、方法。 - 入力トークンシーケンスを書き換えるためのコンピュータ実装方法であって、
正方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの正方向確率を決定するステップと、
反方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの反方向確率を決定するステップと、
前記複数のトークンの各トークンの確率スコアを前記正方向確率のうち最も低いものと前記反方向確率のうち最も低いものとに基づいて計算するステップと、
新たなトークンを用いて、最も低いスコアを有するトークンを置換することによって、新たな書換えトークンシーケンスを作成するステップとを含む、方法。 - 入力トークンシーケンスを書き換えるためのコンピュータ実装方法であって、
正方向統計言語モデル(SLM)に従って、前記入力トークンシーケンス内の複数のトークンの正方向確率を決定するステップと、
反方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの反方向確率を決定するステップと、
新たなトークンを用いて、第1の閾値未満の正方向確率且つ第2の閾値未満の反方向確率を有する疑わしいトークンを置換することによって、新たな書換えトークンシーケンスを生成するステップとを含む、方法。 - 確率を決定する前に、タグを用いて、前記入力トークンシーケンス内の少なくとも1つのトークンを置換するステップをさらに含む、請求項3に記載の方法。
- 前記正方向SLMに従って得られた最も高い確率を有するトークンのリストおよび前記反方向SLMに従って得られた最も高い確率を有するトークンのリストの両方に存在するトークンを前記新たなトークンとして選択するステップをさらに含む、請求項3または4に記載の方法。
- 構文規則に従って、前記入力トークンシーケンスの統語解析を実行するステップと、
前記構文規則に従って、前記選択を隣接トークンの文脈において構文上合法的なトークンのみに制限するステップとをさらに含む、請求項5に記載の方法。 - 前記新たな書換えトークンシーケンスに対して、少なくとも前記正方向SLMにおける前記新たなトークンの確率および前記反方向SLMにおける前記新たなトークンの前記確率に依存する書換えスコアを計算するステップをさらに含む、請求項5または6に記載の方法。
- 多種多様なトピックに関連する表現から構築された多様コーパスSLMにおける前記新たなトークンの前記確率に基づいて、前記書換えスコアをスケーリングする、請求項7に記載の方法。
- 代替の新たなトークンを用いて、前記疑わしいトークンを置換することによって、代替の書換えトークンシーケンスを作成するステップと、
前記代替の書換えトークンシーケンスの代替スコアを、前記正方向SLMにおける前記代替の新たなトークンの確率および前記反方向SLMにおける前記代替の新たなトークンの確率の両方の組み合わせとして計算するステップと、
前記新たな書換えトークンシーケンスと前記代替の書換えトークンシーケンスとのうち、より高いスコアを有するいずれか一方を選択するステップとをさらに含む、請求項5〜8のいずれか1項に記載の方法。 - 最近の連続音声から仮定されたトークンのトークンバッファを維持するステップをさらに含み、
前記入力トークンシーケンスは、前記トークンバッファ内のトークンからなるシーケンスである、請求項5〜9のいずれか1項に記載の方法。 - 最近のトークンシーケンスに存在するトークンの履歴キャッシュを記憶するステップと、
正方向確率が最も高いトークンのリストおよび反方向確率が最も高いトークンのリストの各々から、前記疑わしいトークンを置換するための前記新たなトークンを選択するステップと、
前記履歴キャッシュに存在する少なくとも1つのトークンの前記確率スコアを増加させるステップとをさらに含む、請求項3〜10のいずれか1項に記載の方法。 - 自然言語パーサを用いて、文法に従って前記新たな書換えトークンシーケンスを構文解析することによって、解析スコアを生成するステップをさらに含む、請求項3〜11のいずれか1項に記載の方法。
- 前記疑わしいトークンとは異なる代替の疑わしいトークンを置換することによって、代替の書換えトークンシーケンスを作成するステップと、
自然言語パーサを用いて、前記文法に従って前記代替の書換えトークンシーケンスを構文解析することによって、代替の解析スコアを生成するステップと、
前記新たな書換えトークンシーケンスと前記代替の書換えトークンシーケンスとのうち、より高い解析スコアを有するいずれか一方を選択するステップとをさらに含む、請求項12に記載の方法。 - 代替の新たなトークンを用いて、前記疑わしいトークンを置換することによって、代替の書換えトークンシーケンスを作成するステップと、
自然言語パーサを用いて、前記文法に従って前記代替の書換えトークンシーケンスを構文解析することによって、代替の解析スコアを生成するステップと、
前記新たな書換えトークンシーケンスと前記代替の書換えトークンシーケンスとのうち、より高い解析スコアを有するいずれか一方を選択するステップとをさらに含む、請求項12または13に記載の方法。 - ツリー型アルゴリズムを用いて、書換えを反復的に行い、各書換えのスコアを計算することによって、書換えのセットを生成し、前記書換えのセットから最高のスコアを有する書換えを選択するステップをさらに含む、請求項12〜14のいずれか1項に記載の方法。
- 前記入力トークンシーケンスをキャッシュに格納するステップと、
前記入力トークンシーケンスに関連して、前記新たな書換えトークンシーケンスを前記キャッシュに格納するステップと、
前記キャッシュを検索することによって、前記入力トークンシーケンスを探し出すステップとをさらに含む、請求項3〜15のいずれか1項に記載の方法。 - 前記キャッシュを分析することによって、前記新たな書換えトークンシーケンスに対して、前記新たな書換えトークンシーケンスに書換えられた最も頻繁な入力トークンシーケンスを特定するステップをさらに含む、請求項16に記載の方法。
- 前記新たな書換えトークンシーケンスに書換えられた前記最も頻繁な入力トークンシーケンスを含むように、文法規則を作成するステップをさらに含む、請求項17に記載の方法。
- 前記新たな書換えトークンシーケンスに書換えられた前記最も頻繁な入力トークンシーケンスを含むように、文法規則を改変するステップをさらに含む、請求項17または18に記載の方法。
- コンピュータプロセッサによって実行されるコンピュータプログラムであって、前記コンピュータプロセッサによって実行されると、前記コンピュータプロセッサに、請求項1〜19のいずれか1項に記載の方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/726,394 | 2017-10-06 | ||
US15/726,394 US10599645B2 (en) | 2017-10-06 | 2017-10-06 | Bidirectional probabilistic natural language rewriting and selection |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019070799A JP2019070799A (ja) | 2019-05-09 |
JP2019070799A5 true JP2019070799A5 (ja) | 2020-01-09 |
JP6675463B2 JP6675463B2 (ja) | 2020-04-01 |
Family
ID=65992537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018189730A Active JP6675463B2 (ja) | 2017-10-06 | 2018-10-05 | 自然言語の双方向確率的な書換えおよび選択 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10599645B2 (ja) |
JP (1) | JP6675463B2 (ja) |
CN (1) | CN109635270B (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325227A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于生成修正语句的方法和装置 |
US11437025B2 (en) * | 2018-10-04 | 2022-09-06 | Google Llc | Cross-lingual speech recognition |
CN112151024B (zh) * | 2019-06-28 | 2023-09-22 | 声音猎手公司 | 用于生成语音音频的经编辑的转录的方法和装置 |
US11205052B2 (en) | 2019-07-02 | 2021-12-21 | Servicenow, Inc. | Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework |
US11886461B2 (en) * | 2019-07-31 | 2024-01-30 | Salesforce, Inc. | Machine-learnt field-specific standardization |
CN110660384B (zh) * | 2019-10-14 | 2022-03-22 | 内蒙古工业大学 | 一种基于端到端的蒙古语异形同音词声学建模方法 |
KR20210044056A (ko) * | 2019-10-14 | 2021-04-22 | 삼성전자주식회사 | 중복 토큰 임베딩을 이용한 자연어 처리 방법 및 장치 |
US11276391B2 (en) * | 2020-02-06 | 2022-03-15 | International Business Machines Corporation | Generation of matched corpus for language model training |
US11373657B2 (en) * | 2020-05-01 | 2022-06-28 | Raytheon Applied Signal Technology, Inc. | System and method for speaker identification in audio data |
US11315545B2 (en) * | 2020-07-09 | 2022-04-26 | Raytheon Applied Signal Technology, Inc. | System and method for language identification in audio data |
US12020697B2 (en) | 2020-07-15 | 2024-06-25 | Raytheon Applied Signal Technology, Inc. | Systems and methods for fast filtering of audio keyword search |
US11489793B2 (en) | 2020-11-22 | 2022-11-01 | International Business Machines Corporation | Response qualification monitoring in real-time chats |
CN112528980B (zh) * | 2020-12-16 | 2022-02-15 | 北京华宇信息技术有限公司 | Ocr识别结果纠正方法及其终端、系统 |
US20220284193A1 (en) * | 2021-03-04 | 2022-09-08 | Tencent America LLC | Robust dialogue utterance rewriting as sequence tagging |
CN113869069B (zh) * | 2021-09-10 | 2024-08-06 | 厦门大学 | 基于译文树结构解码路径动态选择的机器翻译方法 |
US20230245649A1 (en) * | 2022-02-03 | 2023-08-03 | Soundhound, Inc. | Token confidence scores for automatic speech recognition |
CN115064170B (zh) * | 2022-08-17 | 2022-12-13 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6848080B1 (en) * | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US7822597B2 (en) * | 2004-12-21 | 2010-10-26 | Xerox Corporation | Bi-dimensional rewriting rules for natural language processing |
GB2424742A (en) * | 2005-03-31 | 2006-10-04 | Ibm | Automatic speech recognition |
US20080270110A1 (en) * | 2007-04-30 | 2008-10-30 | Yurick Steven J | Automatic speech recognition with textual content input |
US9552355B2 (en) * | 2010-05-20 | 2017-01-24 | Xerox Corporation | Dynamic bi-phrases for statistical machine translation |
US8762156B2 (en) * | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
CN103198149B (zh) * | 2013-04-23 | 2017-02-08 | 中国科学院计算技术研究所 | 一种查询纠错方法和系统 |
CN104157285B (zh) * | 2013-05-14 | 2016-01-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
CN105912521A (zh) * | 2015-12-25 | 2016-08-31 | 乐视致新电子科技(天津)有限公司 | 一种解析语音内容的方法及装置 |
-
2017
- 2017-10-06 US US15/726,394 patent/US10599645B2/en active Active
-
2018
- 2018-09-29 CN CN201811151807.XA patent/CN109635270B/zh active Active
- 2018-10-05 JP JP2018189730A patent/JP6675463B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019070799A5 (ja) | ||
US10706084B2 (en) | Method and device for parsing question in knowledge base | |
US9594747B2 (en) | Generation of a semantic model from textual listings | |
Angeli et al. | Leveraging linguistic structure for open domain information extraction | |
US10489701B2 (en) | Generating responses using memory networks | |
US9720944B2 (en) | Method for facet searching and search suggestions | |
Bikel | Intricacies of Collins' parsing model | |
US9318109B2 (en) | Techniques for updating a partial dialog state | |
JP2020522044A5 (ja) | ||
CN109344240B (zh) | 一种数据处理方法、服务器及电子设备 | |
JP2017004555A5 (ja) | ||
US20160364377A1 (en) | Language Processing And Knowledge Building System | |
US20040210434A1 (en) | System and iterative method for lexicon, segmentation and language model joint optimization | |
JP2021523464A5 (ja) | ||
WO2018201600A1 (zh) | 信息挖掘方法、系统、电子装置及可读存储介质 | |
KR20160025007A (ko) | 헤드라인의 자동 생성 | |
US20140278369A1 (en) | Method and system for using natural language techniques to process inputs | |
US11347947B2 (en) | Encoder with double decoder machine learning models | |
WO2016200902A2 (en) | Systems and methods for learning semantic patterns from textual data | |
WO2017161749A1 (zh) | 一种信息匹配方法及装置 | |
US11244009B2 (en) | Automatic keyphrase labeling using search queries | |
CN113673256B (zh) | 问询语句改写方法及装置 | |
WO2022134779A1 (zh) | 人物动作相关数据的提取方法、装置、设备及存储介质 | |
US20170004133A1 (en) | Natural language interpretation of hierarchical data | |
CN110084323A (zh) | 端到端语义解析系统及训练方法 |