JP2018077850A - 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 - Google Patents
単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 Download PDFInfo
- Publication number
- JP2018077850A JP2018077850A JP2017217389A JP2017217389A JP2018077850A JP 2018077850 A JP2018077850 A JP 2018077850A JP 2017217389 A JP2017217389 A JP 2017217389A JP 2017217389 A JP2017217389 A JP 2017217389A JP 2018077850 A JP2018077850 A JP 2018077850A
- Authority
- JP
- Japan
- Prior art keywords
- word
- candidate
- target
- candidate word
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
以下、図1を参照しながら、本開示第一実施例による単語正規化方法を詳細に説明する。図1は、この実施例の単語正規化方法を模式的に示すフローチャートである。
前述した第一実施例において、非正規化単語の意味のみに基づいて非正規化単語を正規化するため、意味変形の非正規化単語についてその正規化結果を得られるのに対して、本実施例において、非正規化単語の意味を考慮する以外、非正規化単語の発音も考慮するため、発音異形の非正規化単語と意味変形の非正規化単語両方についてその正規化結果を得られる。以下の説明において、本実施例の第一実施例と異なる部分のみを詳細に説明し、第一実施例と同じ部分については説明を省略する。
前述の実施例において、非正規化単語の意味と発音を考慮して非正規化単語の正規化結果を表現する候補単語を決定する。この実施例による単語正規化方法において、非正規化単語の正規化結果を表現する候補単語を決定する方法を限定しない。候補単語を決定した後、その信頼性を評価し、信頼性に基づいて候補単語は納得できるかどうかを決定する。
図9は本発明の一実施例による単語正規化装置900の機能配置ブロック図を示す。
ソーティング手段9402は、候補単語スコアに基づいて第一の候補単語グループにおける各候補単語に対してソーティングを行うように配置される。
以下、図11を参照しながら本開示実施例を実現するための、単語正規化装置に用いる算出装置の模式的なブロック図を説明する。
Claims (22)
- 正規化すべきターゲット単語を取得することと、
ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、
単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
ソーティングの結果に基づいてターゲット単語の正規化結果を決定することとを含む、単語正規化方法。 - 前述のネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索することは、
ネットワークサーチエンジンを利用して当該ターゲット単語に関するウェブページを検索することと、
検索したウェブページにおける各文を予め定義したテンプレートとマッチングし、テンプレートとマッチングした文を当該ターゲット単語を解釈する文とすることとを含む、請求項1に記載の単語正規化方法。 - 前述の前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することは、
前述文を単語に分割することと、
当該文とマッチングしたテンプレートの統語構造により、分割して得られた単語のうち、ターゲット単語に関する単語を決定することと、
前述決定したターゲット単語に関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとすることとを含む、請求項2に記載の単語正規化方法。 - 前述の前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することは、
前述文を単語に分割することと、
当該文とマッチングするテンプレートの統語構造により、分割して得られた単語のうち、ターゲット単語に関する単語を決定することと、
依存関係及び/又は否定修飾に基づいて、前述決定したターゲット単語に関する単語のうちの少なくとも一つの単語を拡張することと、
拡張した後の単語、拡張した後の単語以外のその他関する単語からストップ単語及び重複する単語を除去し、残りの単語を前述第一の候補単語グループとすることとを含む、請求項2に記載の単語正規化方法。 - 前述依存関係は、限定/形容詞と中心詞との関係、動詞と目的語との関係、副詞と中心詞の構造の少なくとも一つを含む請求項4に記載の単語正規化方法。
- 単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出することは、
ターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定することと、
ターゲット単語の単語ベクトルと各候補単語の単語ベクトルとの類似度を、ターゲット単語と各候補単語との類似度として算出することとを含む、請求項1ないし5のいずれか一項に記載の単語正規化方法。 - 前述のターゲット単語と各候補単語それぞれが対応する単語ベクトルを決定することは、
ターゲット単語を文字に分割し、各文字に対応する文字ベクトルを決定することと、
各文字ベクトルを加算し、ターゲット単語に対応する単語ベクトルを得ることと、
各候補単語を文字に分割し、各文字に対応する文字ベクトルを決定することと、
各候補単語について、それの各文字に対応する文字ベクトルを加算して、当該候補単語に対応する単語ベクトルを得ることとを含む、請求項6に記載の単語正規化方法。 - 前述のソーティングの結果に基づいてターゲット単語の正規化結果を決定することは、
第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて、第一の候補単語グループのうち、類似度が最も高い候補単語の信頼性を決定することと、
当該信頼性が第一の所定閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを含む、請求項2に記載の単語正規化方法。 - 第一の候補単語グループのうち、類似度が最も高い候補単語の信頼性を決定することは、
第一の候補単語グループにおける各候補単語について、候補単語スコアを算出することと、
候補単語スコアに基づいて、第一の候補単語グループにおける各候補単語に対してソーティングを行うことと、
各隣接する候補単語ペア間の候補単語スコアの差を算出することと、
少なくとも最も高い候補単語スコア、最大の候補単語スコアの差、第一の候補単語グループの数に基づき、トレーニングされた分類器を利用して当該類似度が最も高い候補単語の信頼性を算出することとを含む、請求項8に記載の単語正規化方法。 - 前述の第一の候補単語グループにおける各候補単語について、候補単語スコアを算出することは、
当該候補単語が検索したターゲット単語を解釈するための文における発生頻度を算出することと、
前述ターゲット単語を解釈するための文のうち、当該候補単語が含まれる各文を決定することと、
前述予め定義したテンプレートのうち、それぞれ前述各文とマッチングする各テンプレートを決定することと、
前述各テンプレートそれぞれの所定スコアを決定することと、
最も高い所定スコアと前述発生頻度に基づいて当該候補単語の候補単語スコアを決定することとを含む、請求項9に記載の単語正規化方法。 - ターゲット単語のピンインを決定することと、
ピンインと前述ターゲット単語のピンインとの編集距離がバックアップ閾値より小さいバックアップ単語を決定することと、
各バックアップ単語についてそれがコーパスにおける発生頻度を算出することと、
編集距離と発生頻度に基づいて各バックアップ単語の候補単語スコアを決定することと、
候補単語スコアが候補単語閾値より大きいバックアップ単語を、当該ターゲット単語の正規化結果を表現する第二の候補単語グループとすることとをさらに含む、請求項1に記載の単語正規化方法。 - 各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整することをさらに含む、請求項11に記載の単語正規化方法。
- 前述の各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整することは、
当該バックアップ単語における各音節をそれぞれ、ターゲット単語における対応する音節と比較することと、
当該バックアップ単語においてN個の音節がターゲット単語におけるN個の対応音節と異なるが類似する場合、当該バックアップ単語とターゲット単語との編集距離をN(Nは自然数である)個の第一距離で減少することとを含む、請求項12に記載の単語正規化方法。 - 前述の各バックアップ単語について、それの各音節とターゲット単語の対応する音節が類似するか否かにより、当該バックアップ単語とターゲット単語との編集距離を調整することは、
当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節と類似する場合、当該バックアップ単語とターゲット単語との編集距離を第二距離で減小することと、
当該バックアップ単語の一文字の全ての音節がターゲット単語の対応する文字の全ての対応する音節と異なりかつ類似しない場合、当該バックアップ単語とターゲット単語との編集距離を第三距離で増加することとをさらに含む、請求項13に記載の単語正規化方法。 - 単語ベクトルに基づいてターゲット単語と第二の候補単語グループにおける各候補単語との類似度を算出し、そのうちターゲット単語との類似度が最も高い候補単語を決定することとをさらに含む、請求項11ないし14のいずれか一項に記載の単語正規化方法。
- 前述のソーティングの結果に基づいてターゲット単語正規化の結果を決定することは、
第一の候補単語グループにおける類似度が最も高い候補単語を決定することと、
第二の候補単語グループにおける類似度が最も高い候補単語の類似度が第一の候補単語グループにおける類似度が最も高い候補単語より高い場合、第二の候補単語グループにおける各候補単語の候補単語スコアに基づいて当該第二の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出することと、
当該信頼性が第二の所定閾値より大きい場合、第二の候補単語グループにおける類似度が最も高い候補単語をターゲット単語の正規化結果とすることを含む、請求項15に記載の単語正規化方法。 - 前述のソーティングの結果に基づいてターゲット単語正規化の結果を決定することは、
第二の候補単語グループにおける類似度が最も高い候補単語の類似度が第一の候補単語グループにおける類似度が最も高い候補単語より高くない場合、第一の候補単語グループにおける各候補単語の候補単語スコアに基づいて当該第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を算出することと、
当該信頼性が第一の所定閾値より大きい場合、第一の候補単語グループにおける当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることをさらに含む、請求項16に記載の単語正規化方法。 - 第一の候補単語グループにおける類似度が最も高い候補単語は第二の候補単語グループにおいても存在する場合、当該第一の候補単語グループにおける類似度が最も高い候補単語の信頼性を最大値にすることと、
第二の候補単語グループにおける類似度が最も高い候補単語は第一の候補単語グループにおいても存在する場合、当該第二の候補単語グループにおける類似度が最も高い候補単語の信頼性を最大値にすることとをさらに含む、請求項17に記載の単語正規化方法。 - 正規化すべきターゲット単語を取得するように配置される取得部と、
ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語をターゲット単語の正規化結果を表現する第一の候補単語グループとして決定するように配置される候補単語決定部と、
基幹単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うように配置される類似度ソーティング部と、
ソーティングの結果に基づいてターゲット単語の正規化結果を決定するように配置される正規化部とを備える、単語正規化装置。 - プロセッサと、
メモリと、
前記プロセッサによって実行されるとき、
正規化すべきターゲット単語を取得することと、
ネットワークサーチエンジンを利用して当該ターゲット単語を解釈するための文を検索し、前述文における当該ターゲット単語に関する単語を当該ターゲット単語の正規化結果を表現する第一の候補単語グループとして決定することと、
単語ベクトルに基づいてターゲット単語と第一の候補単語グループにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
ソーティングの結果に基づいてターゲット単語の正規化結果を決定することとを実行する、前述メモリに記憶されたコンピュータープログラムコマンドと、を備える、単語正規化装置。 - 正規化すべきターゲット単語及び当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、
単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
各候補単語のうち、類似度が最も高いものの信頼性を決定することと、
当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語をターゲット単語の正規化結果とすることとを含む、単語正規化方法。 - ソース言語における非正規化単語を検出することと、
当該ターゲット単語の正規化結果を表現する候補単語セットを取得することと、
単語ベクトルに基づいてターゲット単語と当該候補単語セットにおける各候補単語との類似度を算出し、前述類似度に基づいて各候補単語に対してソーティングを行うことと、
各候補単語のうち、類似度が最も高いものの信頼性を決定することと、
当該信頼性が第三閾値より大きい場合、当該類似度が最も高い候補単語を正規化後の単語とし、ターゲット言語に翻訳することとを含む、機械翻訳方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610989788.2 | 2016-11-10 | ||
CN201610989788.2A CN108073565A (zh) | 2016-11-10 | 2016-11-10 | 词语规范化的方法和设备及机器翻译方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018077850A true JP2018077850A (ja) | 2018-05-17 |
JP7120751B2 JP7120751B2 (ja) | 2022-08-17 |
Family
ID=62150615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017217389A Active JP7120751B2 (ja) | 2016-11-10 | 2017-11-10 | 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7120751B2 (ja) |
CN (1) | CN108073565A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614463A (zh) * | 2018-10-24 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 文本匹配处理方法及装置 |
CN110852100A (zh) * | 2019-10-30 | 2020-02-28 | 北京大米科技有限公司 | 关键词提取方法、装置、电子设备及介质 |
CN111581976A (zh) * | 2020-03-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 医学术语的标准化方法、装置、计算机设备及存储介质 |
CN112463969A (zh) * | 2020-12-08 | 2021-03-09 | 上海烟草集团有限责任公司 | 卷烟品牌和品规行话新词的检测方法、系统、设备及介质 |
CN112559559A (zh) * | 2020-12-24 | 2021-03-26 | 中国建设银行股份有限公司 | 清单相似度的计算方法、装置、计算机设备和存储介质 |
KR20210040318A (ko) * | 2020-06-27 | 2021-04-13 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 |
CN112650791A (zh) * | 2020-12-29 | 2021-04-13 | 招联消费金融有限公司 | 字段处理方法、装置、计算机设备和存储介质 |
CN113221557A (zh) * | 2021-05-28 | 2021-08-06 | 中国工商银行股份有限公司 | 一种基于神经网络的数据贯标管理方法及装置 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804423B (zh) * | 2018-05-30 | 2023-09-08 | 深圳平安医疗健康科技服务有限公司 | 医疗文本特征提取与自动匹配方法和系统 |
CN112365374B (zh) * | 2020-06-19 | 2022-04-19 | 支付宝(杭州)信息技术有限公司 | 标准案由确定方法、装置和设备 |
CN111931477B (zh) * | 2020-09-29 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、电子设备以及存储介质 |
CN116415582B (zh) * | 2023-05-24 | 2023-08-25 | 中国医学科学院阜外医院 | 文本处理方法、装置、计算机可读存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01273171A (ja) * | 1988-04-25 | 1989-11-01 | Nippon Telegr & Teleph Corp <Ntt> | 文書書き換え方式および自動翻訳方式 |
JP2005302043A (ja) * | 2004-04-15 | 2005-10-27 | Microsoft Corp | 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング |
JP2009217544A (ja) * | 2008-03-11 | 2009-09-24 | Yahoo Japan Corp | 文字ベクトルを用いた略語生成装置、方法及びプログラム |
JP2012203822A (ja) * | 2011-03-28 | 2012-10-22 | Kddi Corp | 中国語入力装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750687B (zh) * | 2013-12-25 | 2018-03-20 | 株式会社东芝 | 改进双语语料库的方法及装置、机器翻译方法及装置 |
CN105068998B (zh) * | 2015-07-29 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN105183720B (zh) * | 2015-08-05 | 2019-07-09 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
-
2016
- 2016-11-10 CN CN201610989788.2A patent/CN108073565A/zh active Pending
-
2017
- 2017-11-10 JP JP2017217389A patent/JP7120751B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01273171A (ja) * | 1988-04-25 | 1989-11-01 | Nippon Telegr & Teleph Corp <Ntt> | 文書書き換え方式および自動翻訳方式 |
JP2005302043A (ja) * | 2004-04-15 | 2005-10-27 | Microsoft Corp | 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング |
JP2009217544A (ja) * | 2008-03-11 | 2009-09-24 | Yahoo Japan Corp | 文字ベクトルを用いた略語生成装置、方法及びプログラム |
JP2012203822A (ja) * | 2011-03-28 | 2012-10-22 | Kddi Corp | 中国語入力装置 |
Non-Patent Citations (1)
Title |
---|
渡部 啓吾 外3名: "検索エンジンを用いた関連語の自動抽出", 知能と情報, vol. 第23巻 第5号, JPN6021047882, 15 October 2011 (2011-10-15), JP, pages 739 - 748, ISSN: 0004655905 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614463A (zh) * | 2018-10-24 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 文本匹配处理方法及装置 |
CN109614463B (zh) * | 2018-10-24 | 2023-02-03 | 创新先进技术有限公司 | 文本匹配处理方法及装置 |
CN110852100A (zh) * | 2019-10-30 | 2020-02-28 | 北京大米科技有限公司 | 关键词提取方法、装置、电子设备及介质 |
CN110852100B (zh) * | 2019-10-30 | 2023-07-21 | 北京大米科技有限公司 | 关键词提取方法、装置、电子设备及介质 |
CN111581976A (zh) * | 2020-03-27 | 2020-08-25 | 平安医疗健康管理股份有限公司 | 医学术语的标准化方法、装置、计算机设备及存储介质 |
JP2021144742A (ja) * | 2020-06-27 | 2021-09-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 類似度処理方法、装置、電子設備、記憶媒体、及びプログラム |
KR102606514B1 (ko) * | 2020-06-27 | 2023-11-29 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 |
KR20210040318A (ko) * | 2020-06-27 | 2021-04-13 | 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 | 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램 |
CN112463969A (zh) * | 2020-12-08 | 2021-03-09 | 上海烟草集团有限责任公司 | 卷烟品牌和品规行话新词的检测方法、系统、设备及介质 |
CN112559559A (zh) * | 2020-12-24 | 2021-03-26 | 中国建设银行股份有限公司 | 清单相似度的计算方法、装置、计算机设备和存储介质 |
CN112650791A (zh) * | 2020-12-29 | 2021-04-13 | 招联消费金融有限公司 | 字段处理方法、装置、计算机设备和存储介质 |
CN112650791B (zh) * | 2020-12-29 | 2023-12-26 | 招联消费金融有限公司 | 字段处理方法、装置、计算机设备和存储介质 |
CN113221557A (zh) * | 2021-05-28 | 2021-08-06 | 中国工商银行股份有限公司 | 一种基于神经网络的数据贯标管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108073565A (zh) | 2018-05-25 |
JP7120751B2 (ja) | 2022-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018077850A (ja) | 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 | |
KR102085217B1 (ko) | 특허문서의 유사도 판단 방법, 장치 및 시스템 | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
Zhang et al. | Entity linking with effective acronym expansion, instance selection and topic modeling | |
Chen et al. | Unsupervised induction and filling of semantic slots for spoken dialogue systems using frame-semantic parsing | |
JP5825676B2 (ja) | ノン・ファクトイド型質問応答システム及びコンピュータプログラム | |
US11645475B2 (en) | Translation processing method and storage medium | |
US10303761B2 (en) | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated | |
WO2019019860A1 (zh) | 训练分类模型的方法与装置 | |
US20170220561A1 (en) | Method of creating translation corpus | |
US10592542B2 (en) | Document ranking by contextual vectors from natural language query | |
JP2013544397A5 (ja) | ||
WO2011104754A1 (ja) | 検索装置及び検索プログラム | |
Malandrakis et al. | Kernel models for affective lexicon creation | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
CN110162630A (zh) | 一种文本去重的方法、装置及设备 | |
Nguyen et al. | From word segmentation to POS tagging for Vietnamese | |
JP2018055142A (ja) | シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム | |
Aquino et al. | Keyword identification in spanish documents using neural networks | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
JP7323308B2 (ja) | 同義語判定方法、同義語判定プログラム、および、同義語判定装置 | |
Mori et al. | Language Resource Addition: Dictionary or Corpus? | |
Ehsan et al. | A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection. | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
Malandrakis et al. | Affective language model adaptation via corpus selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7120751 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |