JP2020126493A - 対訳処理方法および対訳処理プログラム - Google Patents
対訳処理方法および対訳処理プログラム Download PDFInfo
- Publication number
- JP2020126493A JP2020126493A JP2019019167A JP2019019167A JP2020126493A JP 2020126493 A JP2020126493 A JP 2020126493A JP 2019019167 A JP2019019167 A JP 2019019167A JP 2019019167 A JP2019019167 A JP 2019019167A JP 2020126493 A JP2020126493 A JP 2020126493A
- Authority
- JP
- Japan
- Prior art keywords
- document
- parallel translation
- paragraph
- probability
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Description
実施例1にかかる対訳処理装置10は、容易に整備でき、内容の主旨が対応する第2の多言語文書対(comparable corpus)から、対訳語句を抽出し、対訳辞書を生成するコンピュータ装置の一例である。
図2は、実施例1にかかる対訳処理装置10の機能構成を示す機能ブロック図である。図2に示すように、対訳処理装置10は、通信部11、記憶部12、制御部20を有する。
条件2:条件1の単語対{A1,B1}の第2言語単語(B1)の近傍単語(B2,B3・・・)も条件1の条件が成立、かつ、隣接単語(A1A2,A2A3,B1B2,B2B3・・・)の言語モデルの評価値が高いこと
図10は、実施例1にかかる処理の流れを示すフローチャートである。図10に示すように、管理者等により処理開始が指示されると(S101:Yes)、形態素解析部21は、文書DB13から多言語文書対を読み込み(S102)、各多言語文書に対して形態素解析を実行して、各単語(形態素)を抽出する(S103)。
上述したように、対訳処理装置10は、対訳確率が高い単語対に、「ある単語対の第1言語単語の前後近傍の他の単語が単語対の第2言語単語とは両方向の対訳確率が高い」の条件が成立する最大境界の単語例対を複合語対の候補とする。そして、対訳処理装置10は、複合語対の候補を用いて、単語の対訳確率を再算出し、対訳確率が向上した場合に、新たな対訳語句として登録する。したがって、対訳処理装置10は、専門用語などの複合語および未登録語を正確に切り出して対訳関係を抽出できるので、対訳語句の生成精度を向上させることができる。
図11は、実施例2にかかる品詞ルールに基づく複合語の境界を特定する図である。ここでは、対訳処理装置10は、外部情報として、「助詞+名詞」すなわち助詞と名詞の組み合わせの場合、境界判定の対象外とする品詞ルールを保持する。
図12は、実施例2にかかる既知の対訳語句に基づく複合語の境界を特定する図である。ここでは、対訳処理装置10は、外部情報として事前に整備した対訳辞書を保持し、対訳辞書に登録される既知の対訳語句については、両方向の対訳確率が閾値を越えたとみなして処理を実行する。
図13は、実施例2にかかる構文構造に基づく複合語の境界を特定する図である。ここでは、対訳処理装置10は、外部情報として、単語間の関係性を示す構文構造を保持し、構文構造に基づいて複合語の対象を判定する。
図14は、実施例3にかかる新規の多言語文書対の生成を説明する図である。図14に示すように、実施例1と同様、対訳処理装置50は、comparable corpusである多言語文書群として、日本語文書A−英語文書Bを保持する。ここで、日本語文書A−英語文書Bは、同じ内容が記載されている文書であり、ページ毎に情報の粒度が異なる文書対である。
図15は、実施例3にかかる対訳処理装置50の機能構成を示す機能ブロック図である。図15に示すように、対訳処理装置50は、通信部51、記憶部52、制御部60を有する。
図21は、実施例3にかかる生成処理の流れを示すフローチャートである。図21に示すように、処理開始が指示されると(S201:Yes)、文書意味算出部61は、多言語文書対の各文書の意味ベクトルを算出する(S202)。続いて、段落分割部62は、各文書を段落に分割する(S203)。
図22は、実施例3にかかる生成処理の詳細な流れを示すフローチャートである。この処理は、図21のS204からS206に該当する。
図23は、実施例4にかかる文書情報に基づく削除可否の判定を説明する図である。ここでは、対訳処理装置50は、文書情報として、文書及び段落の文字数、文書及び段落に出現した用語の全体出現頻度などを記憶する。
図24は、実施例4にかかる既知の対訳語句に基づく削除可否の判定を説明する図である。ここでは、対訳処理装置50は、文書情報として、事前に整備した対訳辞書を保持する。
図25は、実施例5にかかる対訳語句の抽出例1を説明する図である。図25に示すように、対訳処理装置50は、元の多言語文書対のみ、新たな多言語文書対のみ、元の多言語文書対および新たな多言語文書対の両方を、学習データとして、対訳語句を抽出することができる。
図26は、実施例5にかかる対訳語句の抽出例2を説明する図である。図26に示すように、対訳処理装置50は、元の多言語文書対または新たな多言語文書対を学習データとして、半教師あり学習により対訳語句の抽出および対訳辞書の生成を実行することができる。
上述した実施例1−4の対訳処理装置は、特定のコミュニティのユーザが利用することができる。図27は、利用形態の一例を説明する図である。図27に示すように、実施例1−4の対訳処理装置は、インターネットや社内ネットワークなどのネットワーク上に設置され、部門や会社などの特定コミュニティのユーザが日々作成、更新した多言語文書群を蓄積した部門文書DBから部門の専門用語対訳辞書を作成して、翻訳サーバに搭載する。このようにすることで、ユーザは、翻訳サーバに格納される対訳辞書を用いて、各文書の翻訳や内容の把握を行うことができる。
上記実施例で用いた数値、データ例、文書の数、段落数等は、あくまで一例であり、任意に変更することができる。また、上記実施例では、内容の主旨が対応する第2の多言語文書対(comparable corpus)を対象とした例で説明したが、行単位で対応する第1の多言語文書対(parallel corpus)を対象とすることもできる。また、多言語文書対の言語も日本語と英語に限らず、フランス語や中国語など他の言語を用いることができる。
例えば、上記実施例で説明した判定手法以外の手法を用いることができる。例えば、対訳処理装置50は、第一の文書において削除対象と判定された段落cに含まれる語句と対応付けられる既知の対訳語句が、第二の文書内に所定数以上含まれる場合は、段落cを削除対象から除外することもできる。また、多言語文書対の両方から段落を削除する例を説明したが、これに限定されず、片方の文書のみから段落を削除することもできる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、上記対訳処理装置10と対訳処理装置50とは同様のハードウェア構成を有するので、ここでは、対訳処理装置100として説明する。図28は、ハードウェア構成例を説明する図である。図28に示すように、対訳処理装置100は、通信装置100a、HDD(Hard Disk Drive)100b、メモリ100c、プロセッサ100dを有する。また、図28に示した各部は、バス等で相互に接続される。
11 通信部
12 記憶部
13 文書DB
14 対訳辞書DB
20 制御部
21 形態素解析部
22 確率計算部
23 統計情報取得部
24 検出処理部
25 境界同定部
26 学習データ置換部
27 候補評価部
50 対訳処理装置
51 通信部
52 記憶部
53 文書DB
54 新規文書DB
60 制御部
61 文書意味算出部
62 段落分割部
63 生成処理部
64 段落意味算出部
65 評価部
66 生成部
Claims (13)
- コンピュータが、
第一の言語で記述された第一の文書に含まれる各第一の形態素から、前記第一の文書と同等の内容が第二の言語で記述された第二の文書に含まれる各第二の形態素への第一の対訳確率、および、前記各第二の形態素から前記各第一の形態素への第二の対訳確率を算出し、
前記第一の対訳確率および前記第二の対訳確率が閾値以上である、前記第一の言語と前記第二の言語との組である形態素対を抽出し、
抽出された前記形態素対に基づき、前記第一の文書と前記第二の文書とにおける対訳語句を生成する
処理を実行することを特徴とする対訳処理方法。 - 前記抽出する処理は、前記第一の対訳確率と前記第二の対訳確率との両方向の対訳確率が閾値以上である複数の形態素対を特定し、
前記生成する処理は、前記複数の形態素対を1つの単語として前記対訳語句を生成することを特徴とする請求項1に記載の対訳処理方法。 - 前記複数の形態素対を1つの単語とみなしたみなし複合語を生成し、
前記みなし複合語を1つの形態素として、前記第一の対訳確率および前記第二の対訳確率を算出し、
前記みなし複合語に対する前記第一の対訳確率および前記第二の対訳確率が、前記みなし複合語を構成する各形態素の前記第一の対訳確率および前記第二の対訳確率よりも高い場合に、前記みなし複合語を1つの単語とする前記対訳語句を生成する、処理を前記コンピュータが実行することを特徴とする請求項2に記載の対訳処理方法。 - 前記抽出する処理は、隣接する第一の形態素の前記両方向の対訳確率、および、隣接する第二の形態素の前記両方向の対訳確率を用いて、前記みなし複合語とみなす最大の範囲を決定することを特徴とする請求項3に記載の対訳処理方法。
- 前記抽出する処理は、算出された各対訳確率に関わらず、予め指定した助詞に該当する形態素については、前記第一の対訳確率または前記第二の対訳確率が前記閾値未満として扱って、または、既知の対訳語句に該当する形態素については、前記第一の対訳確率または前記第二の対訳確率が前記閾値以上として扱って、前記形態素対を抽出することを特徴とする請求項1に記載の対訳処理方法。
- コンピュータに、
第一の言語で記述された第一の文書に含まれる各第一の形態素から、前記第一の文書と同等の内容が第二の言語で記述された第二の文書に含まれる各第二の形態素への第一の対訳確率、および、前記各第二の形態素から前記各第一の形態素への第二の対訳確率を算出し、
前記第一の対訳確率および前記第二の対訳確率が閾値以上である、前記第一の言語と前記第二の言語との組である形態素対を抽出し、
抽出された前記形態素対に基づき、前記第一の文書と前記第二の文書とにおける対訳語句を生成する
処理を実行させることを特徴とする対訳処理プログラム。 - コンピュータが、
第一の言語で記述された第一の文書と前記第一の文書と同等の内容が第二の言語で記述された第二の文書とが対応付けられた文書対に対して、前記第一の文書に含まれる各段落を特定し、
前記各段落が前記第一の文書の意味に与える影響を推定し、
推定された前記影響に基づいて、削除対象の段落を特定し、
前記削除対象の段落を前記第一の文書から削除した更新後の第一の文書と、前記第二の文書とが対応付けられた文書対を生成する
処理を実行することを特徴する対訳処理方法。 - 前記第二の文書に含まれる各段落を特定し、
前記各段落が前記第二の文書の意味に与える影響を推定し、
推定された前記影響に基づいて、削除対象の段落を特定し、
前記削除対象の段落を前記第二の文書から削除した更新後の第二の文書と、前記更新後の第一の文書とが対応付けられた文書対を生成する、処理を前記コンピュータが実行することを特徴とする請求項7に記載の対訳処理方法。 - 前記推定する処理は、前記第一の文書の意味を高次元ベクトルで表現した第一の意味ベクトル、ある段落に対応する第二の意味ベクトル、前記ある段落を除く残りの段落に対応する第三の意味ベクトルを算出し、
前記特定する処理は、前記第一の意味ベクトルと前記第三の意味ベクトルとの距離が閾値未満、かつ、前記第一の意味ベクトルと前記第二の意味ベクトルとの距離が閾値以上および前記第二の意味ベクトルと前記第三の意味ベクトルとの距離が閾値以上である場合に、前記ある段落を削除可能と判定することを特徴とする請求項7に記載の対訳処理方法。 - 前記特定する処理は、ある段落の文字数が前記第一の文書全体に占める割合が閾値以上の場合、または、前記第一の文書全体におけるある段落の全語句の重要度の平均が閾値以上の場合、前記ある段落を削除対象から除外することを特徴とする請求項7に記載の対訳処理方法。
- 前記特定する処理は、前記第一の文書の文字数と前記第二の文書の文字数の差異が閾値以上の場合、前記第一の文書から段落を削除することを抑制することを特徴とする請求項8に記載の対訳処理方法。
- 前記特定する処理は、前記第一の文書において削除対象と判定されたある段落に含まれる語句に対応付けられる既知の対訳語句が、前記第二の文書内に所定数以上含まれる場合は、前記ある段落を削除対象から除外することを特徴とする請求項8に記載の対訳処理方法。
- コンピュータに、
第一の言語で記述された第一の文書と前記第一の文書と同等の内容が第二の言語で記述された第二の文書とが対応付けられた文書対に対して、前記第一の文書に含まれる各段落を特定し、
前記各段落が前記第一の文書の意味に与える影響を推定し、
推定された前記影響に基づいて、削除対象の段落を特定し、
前記削除対象の段落を前記第一の文書から削除した更新後の第一の文書と、前記第二の文書とが対応付けられた文書対を生成する
処理を実行させることを特徴する対訳処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019019167A JP7251181B2 (ja) | 2019-02-05 | 2019-02-05 | 対訳処理方法および対訳処理プログラム |
US16/780,963 US11645475B2 (en) | 2019-02-05 | 2020-02-04 | Translation processing method and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019019167A JP7251181B2 (ja) | 2019-02-05 | 2019-02-05 | 対訳処理方法および対訳処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020126493A true JP2020126493A (ja) | 2020-08-20 |
JP7251181B2 JP7251181B2 (ja) | 2023-04-04 |
Family
ID=71838114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019019167A Active JP7251181B2 (ja) | 2019-02-05 | 2019-02-05 | 対訳処理方法および対訳処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11645475B2 (ja) |
JP (1) | JP7251181B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329785A (zh) * | 2022-10-15 | 2022-11-11 | 小语智能信息科技(云南)有限公司 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10325014B2 (en) | 2015-04-30 | 2019-06-18 | Workiva Inc. | System and method for convergent document collaboration |
DE102016114265A1 (de) * | 2016-08-02 | 2018-02-08 | Claas Selbstfahrende Erntemaschinen Gmbh | Verfahren zum zumindest teilweise maschinellen Transferieren einer in einer Quellsprache abgefassten Wortfolge in eine Wortfolge einer Zielsprache |
JP7251181B2 (ja) * | 2019-02-05 | 2023-04-04 | 富士通株式会社 | 対訳処理方法および対訳処理プログラム |
US11093720B2 (en) * | 2019-03-28 | 2021-08-17 | Lenovo (Singapore) Pte. Ltd. | Apparatus, method, and program product for converting multiple language variations |
US11755825B2 (en) | 2019-09-12 | 2023-09-12 | Workiva Inc. | Method, system, and computing device for facilitating private drafting |
US11100281B1 (en) | 2020-08-17 | 2021-08-24 | Workiva Inc. | System and method for maintaining links and revisions |
US11443108B2 (en) | 2020-08-17 | 2022-09-13 | Workiva Inc. | System and method for document management using branching |
US11100277B1 (en) | 2021-02-15 | 2021-08-24 | Workiva Inc. | Systems, methods, and computer-readable media for flow-through formatting for links |
US11354362B1 (en) | 2021-05-06 | 2022-06-07 | Workiva Inc. | System and method for copying linked documents |
US11640495B1 (en) * | 2021-10-15 | 2023-05-02 | Workiva Inc. | Systems and methods for translation comments flowback |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002342325A (ja) * | 2001-05-15 | 2002-11-29 | Nec Corp | 対訳確率付与装置、対訳確率付与方法並びにそのプログラム |
US20160306794A1 (en) * | 2015-04-20 | 2016-10-20 | Alibaba Group Holding Limited | System and method for training a machine translation system |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7620538B2 (en) * | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
JP4708682B2 (ja) | 2003-04-02 | 2011-06-22 | 日本電信電話株式会社 | 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体 |
JP2005092253A (ja) | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
US7620539B2 (en) * | 2004-07-12 | 2009-11-17 | Xerox Corporation | Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing |
US9020804B2 (en) * | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
JP5082374B2 (ja) * | 2006-10-19 | 2012-11-28 | 富士通株式会社 | フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 |
US20080120092A1 (en) * | 2006-11-20 | 2008-05-22 | Microsoft Corporation | Phrase pair extraction for statistical machine translation |
US8504354B2 (en) * | 2008-06-02 | 2013-08-06 | Microsoft Corporation | Parallel fragment extraction from noisy parallel corpora |
JP5918625B2 (ja) | 2012-05-18 | 2016-05-18 | 日本放送協会 | 句翻訳モデル学習装置およびそのプログラム |
CN104239286A (zh) * | 2013-06-24 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 同义短语的挖掘方法和装置及搜索相关内容的方法和装置 |
JP6705318B2 (ja) * | 2016-07-14 | 2020-06-03 | 富士通株式会社 | 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム |
JP7251181B2 (ja) * | 2019-02-05 | 2023-04-04 | 富士通株式会社 | 対訳処理方法および対訳処理プログラム |
-
2019
- 2019-02-05 JP JP2019019167A patent/JP7251181B2/ja active Active
-
2020
- 2020-02-04 US US16/780,963 patent/US11645475B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002342325A (ja) * | 2001-05-15 | 2002-11-29 | Nec Corp | 対訳確率付与装置、対訳確率付与方法並びにそのプログラム |
US20160306794A1 (en) * | 2015-04-20 | 2016-10-20 | Alibaba Group Holding Limited | System and method for training a machine translation system |
Non-Patent Citations (1)
Title |
---|
春野瑞季 他3名: "文パターンを用いた句の抽出方法の検討", 言語処理学会第19回年次大会 発表論文集[ONLINE], JPN6022041979, 4 March 2013 (2013-03-04), JP, pages 741 - 744, ISSN: 0004887042 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115329785A (zh) * | 2022-10-15 | 2022-11-11 | 小语智能信息科技(云南)有限公司 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
CN115329785B (zh) * | 2022-10-15 | 2023-01-20 | 小语智能信息科技(云南)有限公司 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US11645475B2 (en) | 2023-05-09 |
US20200250383A1 (en) | 2020-08-06 |
JP7251181B2 (ja) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7251181B2 (ja) | 対訳処理方法および対訳処理プログラム | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
Şeker et al. | Initial explorations on using CRFs for Turkish named entity recognition | |
Sadat et al. | Automatic identification of arabic dialects in social media | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
US20160188568A1 (en) | System and method for determining the meaning of a document with respect to a concept | |
JP5379138B2 (ja) | 領域辞書の作成 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
Forsyth et al. | Document dissimilarity within and across languages: a benchmarking study | |
JP2005174336A (ja) | 情報抽出のための一般化文字列パターンの学習および使用 | |
Deng et al. | Resolving ambiguity in sentiment classification: The role of dependency features | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
Zamora et al. | Tweets Language Identification using Feature Weighting. | |
Golpar-Rabooki et al. | Feature extraction in opinion mining through Persian reviews | |
CN114692628A (zh) | 样本生成方法、模型训练方法、文本抽取方法和装置 | |
US20100094615A1 (en) | Document translation apparatus and method | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
Mahmoud et al. | Using twitter to monitor political sentiment for Arabic slang | |
Subha et al. | Quality factor assessment and text summarization of unambiguous natural language requirements | |
Ahmed et al. | Arabic/english word translation disambiguation using parallel corpora and matching schemes | |
Tahmasebi et al. | On the applicability of word sense discrimination on 201 years of modern english | |
JP2009295052A (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
Mekki et al. | Tokenization of Tunisian Arabic: a comparison between three Machine Learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7251181 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |