JP2019070799A5 - - Google Patents

Download PDF

Info

Publication number
JP2019070799A5
JP2019070799A5 JP2018189730A JP2018189730A JP2019070799A5 JP 2019070799 A5 JP2019070799 A5 JP 2019070799A5 JP 2018189730 A JP2018189730 A JP 2018189730A JP 2018189730 A JP2018189730 A JP 2018189730A JP 2019070799 A5 JP2019070799 A5 JP 2019070799A5
Authority
JP
Japan
Prior art keywords
token
new
token sequence
rewrite
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018189730A
Other languages
English (en)
Other versions
JP2019070799A (ja
JP6675463B2 (ja
Filing date
Publication date
Priority claimed from US15/726,394 external-priority patent/US10599645B2/en
Application filed filed Critical
Publication of JP2019070799A publication Critical patent/JP2019070799A/ja
Publication of JP2019070799A5 publication Critical patent/JP2019070799A5/ja
Application granted granted Critical
Publication of JP6675463B2 publication Critical patent/JP6675463B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (20)

  1. クエリ結果をユーザに提供する際に、ユーザクエリの入力トークンシーケンスを書き換えるためのコンピュータ実装方法であって、
    コンピュータネットワークを介して、遠隔クライアント装置上で動作するアプリケーションから、システムユーザからのユーザクエリを受信するステップを含み、前記ユーザクエリは、前記入力トークンシーケンスを含み、
    正方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの正方向確率を決定するステップと、
    反方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの反方向確率を決定するステップと、
    低い反方向確率を有する第1のトークンの後方且つ低い正方向確率を有する隣接の第2のトークンの前方の位置に新たなトークンを挿入することによって、新たな書換えトークンシーケンスを作成するステップと、
    前記新たな書換えトークンシーケンスを処理することによって、結果を生成するステップと、
    前記処理による前記結果を示す応答を前記システムユーザに提供するステップとを含む、方法。
  2. 入力トークンシーケンスを書き換えるためのコンピュータ実装方法であって、
    正方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの正方向確率を決定するステップと、
    反方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの反方向確率を決定するステップと、
    前記複数のトークンの各トークンの確率スコアを前記正方向確率のうち最も低いものと前記反方向確率のうち最も低いものに基づいて計算するステップと、
    新たなトークンを用いて、最も低いスコアを有するトークンを置換することによって、新たな書換えトークンシーケンスを作成するステップとを含む、方法。
  3. 入力トークンシーケンスを書き換えるためのコンピュータ実装方法であって、
    正方向統計言語モデル(SLM)に従って、前記入力トークンシーケンス内の複数のトークンの正方向確率を決定するステップと、
    反方向統計言語モデルに従って、前記入力トークンシーケンス内の複数のトークンの反方向確率を決定するステップと、
    新たなトークンを用いて、第1の閾値未満の正方向確率且つ第2の閾値未満の反方向確率を有する疑わしいトークンを置換することによって、新たな書換えトークンシーケンスを生成するステップとを含む、方法。
  4. 確率を決定する前に、タグを用いて、前記入力トークンシーケンス内の少なくとも1つのトークンを置換するステップをさらに含む、請求項3に記載の方法。
  5. 前記正方向SLMに従って得られた最も高い確率を有するトークンのリストおよび前記反方向SLMに従って得られた最も高い確率を有するトークンのリストの両方に存在するトークンを前記新たなトークンとして選択するステップをさらに含む、請求項3または4に記載の方法。
  6. 構文規則に従って、前記入力トークンシーケンスの統語解析を実行するステップと、
    前記構文規則に従って、前記選択を隣接トークンの文脈において構文上合法的なトークンのみに制限するステップとをさらに含む、請求項5に記載の方法。
  7. 前記新たな書換えトークンシーケンスに対して、少なくとも前記正方向SLMにおける前記新たなトークンの確率および前記反方向SLMにおける前記新たなトークンの前記確率に依存する書換えスコアを計算するステップをさらに含む、請求項5または6に記載の方法。
  8. 多種多様なトピックに関連する表現から構築された多様コーパスSLMにおける前記新たなトークンの前記確率に基づいて、前記書換えスコアをスケーリングする、請求項7に記載の方法。
  9. 代替の新たなトークンを用いて、前記疑わしいトークンを置換することによって、代替の書換えトークンシーケンスを作成するステップと、
    前記代替の書換えトークンシーケンスの代替スコアを、前記正方向SLMにおける前記代替の新たなトークンの確率および前記反方向SLMにおける前記代替の新たなトークンの確率の両方の組み合わせとして計算するステップと、
    前記新たな書換えトークンシーケンスと前記代替の書換えトークンシーケンスとのうち、より高いスコアを有するいずれか一方を選択するステップとをさらに含む、請求項5〜8のいずれか1項に記載の方法。
  10. 最近の連続音声から仮定されたトークンのトークンバッファを維持するステップをさらに含み、
    前記入力トークンシーケンスは、前記トークンバッファ内のトークンからなるシーケンスである、請求項5〜9のいずれか1項に記載の方法。
  11. 最近のトークンシーケンスに存在するトークンの履歴キャッシュを記憶するステップと、
    正方向確率が最も高いトークンのリストおよび反方向確率が最も高いトークンのリストの各々から、前記疑わしいトークンを置換するための前記新たなトークンを選択するステップと、
    前記履歴キャッシュに存在する少なくとも1つのトークンの前記確率スコアを増加させるステップとをさらに含む、請求項3〜10のいずれか1項に記載の方法。
  12. 自然言語パーサを用いて、文法に従って前記新たな書換えトークンシーケンスを構文解析することによって、解析スコアを生成するステップをさらに含む、請求項3〜11のいずれか1項に記載の方法。
  13. 前記疑わしいトークンとは異なる代替の疑わしいトークンを置換することによって、代替の書換えトークンシーケンスを作成するステップと、
    自然言語パーサを用いて、前記文法に従って前記代替の書換えトークンシーケンスを構文解析することによって、代替の解析スコアを生成するステップと、
    前記新たな書換えトークンシーケンスと前記代替の書換えトークンシーケンスとのうち、より高い解析スコアを有するいずれか一方を選択するステップとをさらに含む、請求項12に記載の方法。
  14. 代替の新たなトークンを用いて、前記疑わしいトークンを置換することによって、代替の書換えトークンシーケンスを作成するステップと、
    自然言語パーサを用いて、前記文法に従って前記代替の書換えトークンシーケンスを構文解析することによって、代替の解析スコアを生成するステップと、
    前記新たな書換えトークンシーケンスと前記代替の書換えトークンシーケンスとのうち、より高い解析スコアを有するいずれか一方を選択するステップとをさらに含む、請求項12または13に記載の方法。
  15. ツリー型アルゴリズムを用いて、書換えを反復的に行い、各書換えのスコアを計算することによって、書換えセットを生成し、前記書換えセットから最高のスコアを有する書換えを選択するステップをさらに含む、請求項12〜14のいずれか1項に記載の方法。
  16. 前記入力トークンシーケンスをキャッシュに格納するステップと、
    前記入力トークンシーケンスに関連して、前記新たな書換えトークンシーケンスを前記キャッシュに格納するステップと、
    前記キャッシュを検索することによって、前記入力トークンシーケンスを探し出すステップとをさらに含む、請求項3〜15のいずれか1項に記載の方法。
  17. 前記キャッシュを分析することによって、前記新たな書換えトークンシーケンスに対して、前記新たな書換えトークンシーケンスに書換えられた最も頻繁な入力トークンシーケンスを特定するステップをさらに含む、請求項16に記載の方法。
  18. 前記新たな書換えトークンシーケンスに書換えられた前記最も頻繁な入力トークンシーケンスを含むように、文法規則を作成するステップをさらに含む、請求項17に記載の方法。
  19. 前記新たな書換えトークンシーケンスに書換えられた前記最も頻繁な入力トークンシーケンスを含むように、文法規則を改変するステップをさらに含む、請求項17または18に記載の方法。
  20. コンピュータプロセッサによって実行されるコンピュータプログラムであって、前記コンピュータプロセッサによって実行されると、前記コンピュータプロセッサに、請求項1〜19のいずれか1項に記載の方法を実行させる、コンピュータプログラム。
JP2018189730A 2017-10-06 2018-10-05 自然言語の双方向確率的な書換えおよび選択 Active JP6675463B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/726,394 2017-10-06
US15/726,394 US10599645B2 (en) 2017-10-06 2017-10-06 Bidirectional probabilistic natural language rewriting and selection

Publications (3)

Publication Number Publication Date
JP2019070799A JP2019070799A (ja) 2019-05-09
JP2019070799A5 true JP2019070799A5 (ja) 2020-01-09
JP6675463B2 JP6675463B2 (ja) 2020-04-01

Family

ID=65992537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018189730A Active JP6675463B2 (ja) 2017-10-06 2018-10-05 自然言語の双方向確率的な書換えおよび選択

Country Status (3)

Country Link
US (1) US10599645B2 (ja)
JP (1) JP6675463B2 (ja)
CN (1) CN109635270B (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325227A (zh) * 2018-09-14 2019-02-12 北京字节跳动网络技术有限公司 用于生成修正语句的方法和装置
US11437025B2 (en) * 2018-10-04 2022-09-06 Google Llc Cross-lingual speech recognition
CN112151024B (zh) * 2019-06-28 2023-09-22 声音猎手公司 用于生成语音音频的经编辑的转录的方法和装置
US11205052B2 (en) 2019-07-02 2021-12-21 Servicenow, Inc. Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework
US11886461B2 (en) * 2019-07-31 2024-01-30 Salesforce, Inc. Machine-learnt field-specific standardization
CN110660384B (zh) * 2019-10-14 2022-03-22 内蒙古工业大学 一种基于端到端的蒙古语异形同音词声学建模方法
KR20210044056A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 중복 토큰 임베딩을 이용한 자연어 처리 방법 및 장치
US11276391B2 (en) * 2020-02-06 2022-03-15 International Business Machines Corporation Generation of matched corpus for language model training
US11373657B2 (en) * 2020-05-01 2022-06-28 Raytheon Applied Signal Technology, Inc. System and method for speaker identification in audio data
US11315545B2 (en) * 2020-07-09 2022-04-26 Raytheon Applied Signal Technology, Inc. System and method for language identification in audio data
US12020697B2 (en) 2020-07-15 2024-06-25 Raytheon Applied Signal Technology, Inc. Systems and methods for fast filtering of audio keyword search
US11489793B2 (en) 2020-11-22 2022-11-01 International Business Machines Corporation Response qualification monitoring in real-time chats
CN112528980B (zh) * 2020-12-16 2022-02-15 北京华宇信息技术有限公司 Ocr识别结果纠正方法及其终端、系统
US20220284193A1 (en) * 2021-03-04 2022-09-08 Tencent America LLC Robust dialogue utterance rewriting as sequence tagging
CN113869069B (zh) * 2021-09-10 2024-08-06 厦门大学 基于译文树结构解码路径动态选择的机器翻译方法
US20230245649A1 (en) * 2022-02-03 2023-08-03 Soundhound, Inc. Token confidence scores for automatic speech recognition
CN115064170B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7822597B2 (en) * 2004-12-21 2010-10-26 Xerox Corporation Bi-dimensional rewriting rules for natural language processing
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
US20080270110A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
US9552355B2 (en) * 2010-05-20 2017-01-24 Xerox Corporation Dynamic bi-phrases for statistical machine translation
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
CN103198149B (zh) * 2013-04-23 2017-02-08 中国科学院计算技术研究所 一种查询纠错方法和系统
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN105912521A (zh) * 2015-12-25 2016-08-31 乐视致新电子科技(天津)有限公司 一种解析语音内容的方法及装置

Similar Documents

Publication Publication Date Title
JP2019070799A5 (ja)
US10706084B2 (en) Method and device for parsing question in knowledge base
US9594747B2 (en) Generation of a semantic model from textual listings
Angeli et al. Leveraging linguistic structure for open domain information extraction
US10489701B2 (en) Generating responses using memory networks
US9720944B2 (en) Method for facet searching and search suggestions
Bikel Intricacies of Collins' parsing model
US9318109B2 (en) Techniques for updating a partial dialog state
JP2020522044A5 (ja)
CN109344240B (zh) 一种数据处理方法、服务器及电子设备
JP2017004555A5 (ja)
US20160364377A1 (en) Language Processing And Knowledge Building System
US20040210434A1 (en) System and iterative method for lexicon, segmentation and language model joint optimization
JP2021523464A5 (ja)
WO2018201600A1 (zh) 信息挖掘方法、系统、电子装置及可读存储介质
KR20160025007A (ko) 헤드라인의 자동 생성
US20140278369A1 (en) Method and system for using natural language techniques to process inputs
US11347947B2 (en) Encoder with double decoder machine learning models
WO2016200902A2 (en) Systems and methods for learning semantic patterns from textual data
WO2017161749A1 (zh) 一种信息匹配方法及装置
US11244009B2 (en) Automatic keyphrase labeling using search queries
CN113673256B (zh) 问询语句改写方法及装置
WO2022134779A1 (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
US20170004133A1 (en) Natural language interpretation of hierarchical data
CN110084323A (zh) 端到端语义解析系统及训练方法