JP2006018354A - テキスト分割装置及び自然言語処理装置 - Google Patents
テキスト分割装置及び自然言語処理装置 Download PDFInfo
- Publication number
- JP2006018354A JP2006018354A JP2004192575A JP2004192575A JP2006018354A JP 2006018354 A JP2006018354 A JP 2006018354A JP 2004192575 A JP2004192575 A JP 2004192575A JP 2004192575 A JP2004192575 A JP 2004192575A JP 2006018354 A JP2006018354 A JP 2006018354A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- text
- divided
- likelihood
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】文分割処理装置40は、入力文38を分割可能個所で分割して得られる分割文のうち、言語モデル34に基づいて算出される尤度Probが所定の条件を充足する複数個の分割文候補を生成する分割文候補生成部60と、分割文候補生成部60より生成された分割文候補の各々に対し、コーパス30との間で算出される類似度Simと、分割文候補生成部60により算出された尤度Probとにより定義されるスコアが最も高い分割文候補を選択して入力文38を分割するための分割文候補選択部64とを含む。
【選択図】 図1
Description
以下に述べる実施の形態では、依存構造解析、構文解析等を用いずに、統計的な観点から文の分割位置を定める。そのために本実施の形態では、所定のコーパスから作成された統計的言語モデルにより算出された文の尤度と、コーパスを基準としたテキスト類似度と呼ぶ尺度とを用いて、所定の目標関数を最適化するような分割位置を決定する。分割のための知識はコーパスから自動的に獲得することが可能であり、人手によって文分割位置決定のためのルールを作成する必要はない。
上に述べた第1の実施の形態に係る機械翻訳システム20は以下のように動作する。まず、翻訳に先立って準備が必要である。図1を参照して、予めパラレルコーパス30を用意する。さらに言語モデル作成部32を用いてパラレルコーパス30に対するNグラム(例えば3−グラム)言語モデルを作成し、言語モデル記憶装置34に格納する。また、翻訳知識作成部42によって機械翻訳装置46で必要とされる翻訳知識をパラレルコーパス30から作成し、翻訳知識記憶装置44に格納する。
上述の実施の形態の機械翻訳システム20の文分割処理装置40による文分割についてシミュレーションした結果を以下に示す。入力文38として「This is a medium size jacket I think it's a good size for you try it on please」が与えられたものとする。この入力文に対する分割方法は多数存在する。図4に、それらのうちで入力文38の尤度以上の尤度を持つ分割文候補として、図4に示す5つが分割文候補生成部60により生成される。
[機械翻訳装置]
上記した文分割処理装置40を採用した機械翻訳システム20の性能を評価するために、以下のような実験を行なった。機械翻訳装置46として英日翻訳装置を用いた。実験には、二つの用例ベースの機械翻訳装置を用いた。一方は、句単位で翻訳を行なう階層的句アライメントベースの翻訳機(HPAT)(非特許文献5)である。HPATは句を組合わせることにより入力文を翻訳する。他方は文単位で翻訳を行なうDPマッチ型トランスデューサ(D3)(非特許文献6)である。いずれの機械翻訳装置に対しても、翻訳知識は予めパラレルコーパスから自動的に獲得したものを用いた。
実験では、日本語−英語パラレルコーパスを用いた。すなわち、トレーニング用にはBTEC(Basic Travel Expression Corpus)と、SLDB(Spoken Language Data Base)とを用い、テスト用としてMAD(Machine-Translation-Aided bilingual Dialogues)を用いた(非特許文献7参照)。BTECは外国旅行者のための会話集に記載された日本語文とその英語訳とを集めたものである。SLDBの内容は、日本人と英語話者との間で通訳を介して行なわれた会話を書き起こしたものである。これらコーパスの日本語部分と英語部分とは、互いに文対文の関係で対応付けされている。一方、MADに含まれる会話は、日本人と英語話者との間で、人間のタイピストと試作MTシステムとを介して行なわれたものである。
本例での文分割に使用するNグラム言語モデルはトライグラムモデルである。分割文の数(一つの入力文を分割する際の最大分割数)は4に限定した。Simの重みλには、0、1/2、2/3、3/4、及び1のうちのいずれか一つを割当てて実験した。
文分割を行なった場合の翻訳結果と、行なわなかった場合の翻訳結果との間で、訳質を比較した。訳質の評価には、客観的な尺度と主観的な尺度とを用いた。それらについて以下説明する。
表3に、類似度を用いた場合の選択の効果を、そうした選択を行なわなかった場合と比較して示す。表3において、変化の数はProbのみを用いて得られた分割文候補とは別の候補が選択された文の数を表す。表3にはさらに、Probのみを用いた場合にはベストではなかったが、Simと併せたスコアによりベストとなった分割文候補の、Probのみによる評価の平均順位及び最大順位を示す。
さらに、Sim算出においてシソーラスを用いない実験を行なって、シソーラスを用いることの効果について検討した。この実験では、シソーラスを用いてSimの定義におけるSemを算定する変わりに、全てのSemの意味的距離の大きさが0.5に等しいと仮定した。表4に237文に対するこの実験により得られた翻訳結果の評価を示す。
第1の実施の形態では、機械翻訳の前処理として、入力文を分割する。しかし本発明はそのような機械翻訳の前処理のみに適用可能なわけではない。例えば、従来技術の項で説明したスラッシュリーディングのためのテキスト分割にも応用できる。以下で説明する第2の実施の形態は、スラッシュリーディングのためにテキストを分割し、分割個所にスラッシュ等の記号を挿入するテキスト処理システムに関する。
本実施の形態に係るテキスト処理システム350の評価を行なうために、スラッシュ挿入個所の再現率、適合率、及びF値を計算した。比較のため、従来手法(非特許文献2)についても実験を行なった。
実験では、スラッシュリーディング用にあらかじめスラッシュ記号が入れられた教材をテストセットとして利用した。この教材は高校生向けの英文解釈の学習参考書である。内容は外国人によって書かれた日本文化についての15話のエッセイからなる。テストセットは485文からなり、その平均文長は14.54(語/文)である。スラッシュの総数は834である。
従来手法の実装がウェブサイト"http://lengua.cc.kyushu-u.ac.jp/english/sr/"で実行可能な形で公開されている。同ウェブサイトにおいては、「統語範疇の境界を考慮しない版」と「考慮する版」の2つが用意されている。それぞれの版について、2つのパラメータの値を決める必要がある。1つのパラメータは、スラッシュで区切られたチャンクの単語数の上限を示し、5から9までを値の範囲とする。もう1つのパラメータは語彙チャンクとして使う辞書セットを4種類の中から指定するものである。この手法中では語彙チャンクは1語として扱われている。実験では、2種類の版それぞれについて、2つのパラメータの全ての値の組合せでスラッシュ挿入処理を実行し結果を評価した。
学習コーパス実験では出願人において作成した旅行会話基本表現集とバイリンガル旅行対話データベースとを使った(非特許文献7)。どちらも話し言葉で表現された文からなる対訳コーパスである。両者の英語部分を合わせて学習コーパスとして使用した。この学習コーパスからNグラム言語モデルを作成するとともに、このコーパスに対する分割文の類似度を計算した。このコーパスの統計情報を表5に示す。
尤度Probの計算に用いたNグラム言語モデルは単語トライグラムモデルであり、スムージングにはグッド・チューリング推定法を使った。テストセットの1文に対し生成される分割文候補数は30以内とした。また分割文の要素数、つまりスラッシュによって区切られたチャンク数、にも上限を設けた。指定された整数で文長を割った値以上の最小整数値を、その文のチャンク数の上限とした。ここで指定する整数は4から8までとした。式(5)のλは0または2/3とした。以後、λが0の条件を「尤度Probのみを使った場合」、λが2/3の条件を「スコアを使った場合」と呼ぶ。
表6は従来手法の「統語範疇の境界を考慮しない版」について、パラメータ値の全組合せのうちで、再現率、適合率、F値のいずれかが1番良かった結果を示している。表7は従来手法の「統語範疇の境界を考慮する版」についての同様の結果を示している。統語範疇の境界を考慮することで、より良い結果が得られている。
458のテスト文中442文で複数の分割文候補が生成された。候補数を30に制限した実験条件下で、485のテスト文について、分割文候補の平均個数は23.7であった。F値の最良となる条件(表9でx=6の場合)では、179文において、スコアによる入れ替えが発生した。すなわち、尤度Probによる順位では2位以下であった候補が、スコアによる選択で選ばれるという状況が発生した。この場合スコア基準で1位の候補の最も悪いProb順位は28である。つまり、Prob基準の順位で28位だったにもかかわらず、スコアの値としては最も高い値を示した候補もあるということである。
実験では、短い文からなる話し言葉コーパスを学習コーパスとして用いることにより、スラッシュ挿入のために適当な文分割を実現することができた。またスラッシュリーディング用の既存の教材は限られているとしても、少量のスラッシュ付きテキストを学習コーパスとして利用することも考えられる。これらのテキストは類似度Simの計算に利用できる。尤度Probの計算については、スラッシュ付きテキストから作られるNグラム言語モデルと、他のコーパスから作られるNグラム言語モデルとを、線形補間等により混合して使う方法が精度向上に有望である。
Claims (10)
- 所定言語の入力テキストを複数個の部分テキストに分割するためのテキスト分割装置であって、
前記入力テキストを分割可能個所で分割して得られる分割文のうち、前記所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が所定の条件を充足する複数個の分割文候補を生成するための分割文候補生成手段と、
前記分割文候補生成手段により生成された前記複数個の分割文候補の各々に対し、前記所定言語のコーパスとの間で所定の類似度算出式に従い算出される類似度と、前記分割文候補生成手段により算出された前記尤度とにより定義されるスコアが所定の条件を充足する分割文候補を選択し、当該選択された分割文候補にしたがって前記入力テキストを1又は複数の部分テキストに分割するための分割文候補選択手段とを含む、テキスト分割装置。 - 前記分割文候補生成手段は、前記入力テキストを分割可能個所で分割して得られる分割文のうち、前記所定言語の言語モデルに基づいて所定の尤度算出式に従い算出される尤度が前記入力テキストの尤度以上である複数個の分割文候補を生成するための手段を含む、請求項1に記載のテキスト分割装置。
- 前記生成するための手段は、前記入力テキストを分割可能個所で分割して得られる分割文のうち、前記所定言語の言語モデルに基づいて前記所定の尤度算出式に従い算出される尤度が前記入力テキストの尤度以上であって、かつ尤度が上位の予め定められた複数個の分割文候補を生成するための手段を含む、請求項2に記載のテキスト分割装置。
- 請求項1〜請求項6のいずれかに記載のテキスト分割装置と、
前記テキスト分割装置により得られた前記1又は複数の部分テキストの各々に対し、予め定める自然言語処理を行なうための自然言語処理手段を含む自然言語処理装置。 - 前記自然言語処理手段は、前記テキスト分割装置により得られた前記1又は複数の部分テキストの各々に対して機械翻訳を行なうための機械翻訳手段を含む、請求項7に記載の自然言語処理装置。
- 前記機械翻訳手段は、前記テキスト分割装置により得られた前記1又は複数の部分テキストの各々に対して、コーパスベースの機械翻訳を行なうための手段を含む、請求項8に記載の自然言語処理装置。
- 前記自然言語処理手段は、前記テキスト分割装置により得られた前記1又は複数の部分テキストの境界に予め定められた符号を挿入するための符号挿入手段を含む、請求項7に記載の自然言語処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004192575A JP2006018354A (ja) | 2004-06-30 | 2004-06-30 | テキスト分割装置及び自然言語処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004192575A JP2006018354A (ja) | 2004-06-30 | 2004-06-30 | テキスト分割装置及び自然言語処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006018354A true JP2006018354A (ja) | 2006-01-19 |
JP2006018354A5 JP2006018354A5 (ja) | 2007-07-26 |
Family
ID=35792608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004192575A Pending JP2006018354A (ja) | 2004-06-30 | 2004-06-30 | テキスト分割装置及び自然言語処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006018354A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118814A (ja) * | 2009-12-07 | 2011-06-16 | Fuji Xerox Co Ltd | 自然言語処理プログラム及び自然言語処理装置 |
JP2012068857A (ja) * | 2010-09-22 | 2012-04-05 | Fujitsu Ltd | 情報処理装置、電子メールの返信文抽出方法、及びそのプログラム |
KR20190111009A (ko) | 2017-02-07 | 2019-10-01 | 파나소닉 아이피 매니지먼트 가부시키가이샤 | 번역 장치 및 번역 방법 |
CN110945514A (zh) * | 2017-07-31 | 2020-03-31 | 北京嘀嘀无限科技发展有限公司 | 用于分割句子的系统和方法 |
CN111414765A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN112527992A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 长文本处理方法、相关设备及可读存储介质 |
CN116795972A (zh) * | 2023-08-11 | 2023-09-22 | 之江实验室 | 一种模型训练的方法、装置、存储介质及电子设备 |
CN117034327A (zh) * | 2023-10-09 | 2023-11-10 | 广东源恒软件科技有限公司 | 一种电子书内容加密防护方法 |
-
2004
- 2004-06-30 JP JP2004192575A patent/JP2006018354A/ja active Pending
Non-Patent Citations (4)
Title |
---|
CSNG200400277014, 中嶋秀治 他, "音声認識過程での発話分割のための統計的言語モデル", 情報処理学会論文誌, 20011115, 第42巻第11号, 2681−2688頁, JP, 社団法人情報処理学会 * |
CSNJ200710030091, 土居誉生 他, "用例ベース翻訳D3のための文分割", FIT2002 情報科学技術フォーラム 一般講演論文集 第2分冊, 20020913, 181−182頁, JP, 電子情報通信学会 * |
JPN6009066358, 中嶋秀治 他, "音声認識過程での発話分割のための統計的言語モデル", 情報処理学会論文誌, 20011115, 第42巻第11号, 2681−2688頁, JP, 社団法人情報処理学会 * |
JPN6009066362, 土居誉生 他, "用例ベース翻訳D3のための文分割", FIT2002 情報科学技術フォーラム 一般講演論文集 第2分冊, 20020913, 181−182頁, JP, 電子情報通信学会 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118814A (ja) * | 2009-12-07 | 2011-06-16 | Fuji Xerox Co Ltd | 自然言語処理プログラム及び自然言語処理装置 |
JP2012068857A (ja) * | 2010-09-22 | 2012-04-05 | Fujitsu Ltd | 情報処理装置、電子メールの返信文抽出方法、及びそのプログラム |
US11048886B2 (en) | 2017-02-07 | 2021-06-29 | Panasonic Intellectual Property Management Co., Ltd. | Language translation by dividing character strings by fixed phases with maximum similarity |
KR20190111009A (ko) | 2017-02-07 | 2019-10-01 | 파나소닉 아이피 매니지먼트 가부시키가이샤 | 번역 장치 및 번역 방법 |
CN110945514A (zh) * | 2017-07-31 | 2020-03-31 | 北京嘀嘀无限科技发展有限公司 | 用于分割句子的系统和方法 |
CN110945514B (zh) * | 2017-07-31 | 2023-08-25 | 北京嘀嘀无限科技发展有限公司 | 用于分割句子的系统和方法 |
CN111414765A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN112527992A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 长文本处理方法、相关设备及可读存储介质 |
CN112527992B (zh) * | 2020-12-17 | 2023-01-17 | 科大讯飞股份有限公司 | 长文本处理方法、相关设备及可读存储介质 |
CN116795972A (zh) * | 2023-08-11 | 2023-09-22 | 之江实验室 | 一种模型训练的方法、装置、存储介质及电子设备 |
CN116795972B (zh) * | 2023-08-11 | 2024-01-09 | 之江实验室 | 一种模型训练的方法、装置、存储介质及电子设备 |
CN117034327A (zh) * | 2023-10-09 | 2023-11-10 | 广东源恒软件科技有限公司 | 一种电子书内容加密防护方法 |
CN117034327B (zh) * | 2023-10-09 | 2024-03-19 | 广东源恒软件科技有限公司 | 一种电子书内容加密防护方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nießen et al. | Statistical machine translation with scarce resources using morpho-syntactic information | |
Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
Broda et al. | Measuring Readability of Polish Texts: Baseline Experiments. | |
WO2012039686A1 (en) | Methods and systems for automated text correction | |
Callison-Burch et al. | A program for automatically selecting the best output from multiple machine translation engines | |
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
Oh et al. | A comparison of different machine transliteration models | |
Zhao et al. | Automatic interlinear glossing for under-resourced languages leveraging translations | |
Kunilovskaya et al. | Translationese features as indicators of quality in English-Russian human translation | |
Ulčar et al. | Evaluation of contextual embeddings on less-resourced languages | |
JP2006018354A (ja) | テキスト分割装置及び自然言語処理装置 | |
Etxeberria et al. | Weighted finite-state transducers for normalization of historical texts | |
Reyes et al. | A baseline readability model for Cebuano | |
Mara | English-Wolaytta Machine Translation using Statistical Approach | |
Alkım et al. | Machine translation infrastructure for Turkic languages (MT-Turk) | |
Stodden et al. | A multi-lingual and cross-domain analysis of features for text simplification | |
Pereira et al. | A language modelling tool for statistical NLP | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
Doi et al. | Splitting input sentence for machine translation using language model with sentence similarity | |
Wołk et al. | Big data language model of contemporary polish | |
Lugli et al. | Embeddings Models for Buddhist Sanskrit | |
Shquier et al. | Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT | |
Babhulgaonkar et al. | Experimenting with factored language model and generalized back-off for Hindi | |
Park et al. | Affix modification-based bilingual pivoting method for paraphrase extraction in agglutinative languages | |
Hlaing et al. | NECTEC’s Participation in WAT-2021 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070530 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100622 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101019 |