JP2003256411A - 引用文変換装置及びそのプログラム - Google Patents

引用文変換装置及びそのプログラム

Info

Publication number
JP2003256411A
JP2003256411A JP2002059026A JP2002059026A JP2003256411A JP 2003256411 A JP2003256411 A JP 2003256411A JP 2002059026 A JP2002059026 A JP 2002059026A JP 2002059026 A JP2002059026 A JP 2002059026A JP 2003256411 A JP2003256411 A JP 2003256411A
Authority
JP
Japan
Prior art keywords
quotation
sentence
position mark
citation
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002059026A
Other languages
English (en)
Inventor
Kenichiro Ikezaki
健一郎 池▲崎▼
Terumasa Ebara
暉将 江原
Naoto Kato
直人 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2002059026A priority Critical patent/JP2003256411A/ja
Publication of JP2003256411A publication Critical patent/JP2003256411A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 本発明は、間接引用文を直接引用文に変換す
ることができる引用文変換装置及びそのプログラムを提
供することを目的とする。 【解決手段】 文中の引用表明部A4を探し、文中の話
者を特定している文節である話者特定部A1を探し、文
中の引用部分が開始する箇所の直前の文節である一般引
用開始部A2aを探し、引用部分が終了する箇所の直後
の文節である引用終了部A3を探し、話者特定部A1の
直後に引用文開始位置マークを設定し、引用表明部A4
の直前に引用文終了位置マークを設定し、引用文開始位
置マークを一般引用開始部A2aの直後に移動させ、引
用文終了位置マークを前記引用終了部A3の直前に移動
させることにより、間接引用文を直接引用文に変換する
ことができ、係り受け解析の精度が向上し、曖昧性を解
消でき、テキストからの情報抽出が容易になり、日本語
機械翻訳の精度を向上することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、引用文変換装置及
びそのプログラムに関し、間接引用文を直接引用文に変
換する引用文変換装置及びそのプログラムに関する。
【0002】
【従来の技術】日本語文書には、かぎ括弧で括られず引
用文であることを明示しない間接引用形態の文(以下
「間接引用文」という)と、かぎ括弧で引用部分を括っ
てある直接引用形態の文(以下「直接引用文」という)
とがある。
【0003】日本語文書を他の言語に翻訳する従来の機
械翻訳装置では、上記間接引用文と直接引用文が混じっ
た日本語文書について係り受け解析を含む日本語構文解
析を行っている。
【0004】
【発明が解決しようとする課題】しかしながら、間接引
用文と直接引用文が混じった日本語文書について係り受
け解析を含む日本語構文解析を行った場合、間接引用文
を含む文の係り受け解析を誤るおそれがある。
【0005】これは、図4(A)に示す、主語1(話
者)と引用文内主語2と引用文内述語2と話者述語(話
者に対する述語)からなる文の係り受け解析では、図4
(B)に示すように、主語1が話者述語に係り、引用文
内述語2が引用文内述語2に係るのが正しいのである
が、図4(C)に示すように、主語1と引用文内述語2
が話者述語に係ると誤ったり、図4(D)に示すよう
に、主語1と引用文内述語2が引用文内述語2に係ると
誤るおそれがあるという問題があった。
【0006】本発明は、上記の点に鑑みなされたもの
で、間接引用文を直接引用文に変換することができ、係
り受け解析の精度が向上し、曖昧性を解消でき、テキス
トからの情報抽出が容易になり、日本語機械翻訳の精度
を向上することができる引用文変換装置及びそのプログ
ラムを提供することを目的とする。
【0007】
【課題を解決するための手段】請求項1,3に記載の発
明は、文中の引用表明部A4を探し、文中の話者を特定
している文節である話者特定部A1を探し、文中の引用
部分が開始する箇所の直前の文節である一般引用開始部
A2aを探し、引用部分が終了する箇所の直後の文節で
ある引用終了部A3を探し、話者特定部A1の直後に引
用文開始位置マークを設定し、引用表明部A4の直前に
引用文終了位置マークを設定し、引用文開始位置マーク
を一般引用開始部A2aの直後に移動させ、引用文終了
位置マークを前記引用終了部A3の直前に移動させるこ
とにより、間接引用文を直接引用文に変換することがで
き、係り受け解析の精度が向上し、曖昧性を解消でき、
テキストからの情報抽出が容易になり、日本語機械翻訳
の精度を向上することができる。
【0008】請求項2,4に記載の発明は、その前方に
話者特定部A2を持たない特別引用開始部A2bを探
し、特別引用開始部A2bの直後に引用文開始位置マー
クを設定することにより、さらに、特別引用開始部を持
つ間接引用文を直接引用文に変換することが可能とな
る。
【0009】
【発明の実施の形態】以下、図面を参照して本発明の実
施例について説明する。
【0010】図1は、本発明の引用文変換装置の一実施
例のブロック図を示す。引用文変換装置はコンピュータ
システムで構成されている。同図中、ハードディスク装
置10にはCPU12で実行する各種プログラム、変換
前文書及び変換後文書等が記憶される。CPU12はハ
ードディスク装置10から読み出されるプログラムを実
行して変換前文書中の間接引用文を直接引用文に変換す
る。この際に、CPU12はRAM14を作業領域とし
て使用する。
【0011】入出力インタフェース16は例えば変換前
文書等を外部から入力するために使用される。入力装置
18はキーボードやマウス等のポインティングデバイス
である。ディスプレイ装置20は対応づけた第1,第2
言語文書等の表示を行う。上記のハードディスク装置1
0からディスプレイ装置20までの各部はバス22で相
互に接続されている。
【0012】ここで、図2に示すようなニュース記事の
様々な間接引用文の事例を収集して、次の分析結果が得
られる。間接引用文は、文中の主語で話者を特定してい
る文節である話者特定部A1と、引用部分が開始する箇
所の直前の文節である引用開始部A2と、引用部分が終
了する箇所の直後の文節である引用終了部A3と、文中
の述語で話者に対する叙述動詞である引用表明部A4と
から構成されるような特徴的パターンを有するものが多
い。
【0013】話者特定部A1としては、「宮沢大蔵大臣
は」「財務省は」「橋本元首相は」「小沢党首は」等が
ある。
【0014】引用開始部A2としては、「記者会見で」
「インタビューで」「懇談し」「会談の中で」等の一般
引用開始部A2aと、「〜によりますと」等の特別引用
開始部A2bとがある。このうち、「記者会見で」等の
一般引用開始部A2aはその前方に話者特定部A1を持
つが、「〜によりますと」等の特別引用開始部A2bは
その前方に話者特定部A2を持たない。
【0015】引用終了部A3としては、「という認識
を」「との考えを」「などと」「と方針を」等がある。
【0016】引用表明部A4としては、「示しました」
「述べました」「訴えました」「主張しました」等があ
る。
【0017】図3は、CPU12が実行する引用文変換
プログラムの一実施例のフローチャートを示す。この引
用文変換プログラムは変換対象の文書に対し、文単位で
実行される。
【0018】同図中、ステップS1で、文中にかぎ括
弧”「”,”」”でくくられた発話が存在するか否かを
判別し、かぎ括弧で囲まれた発話が存在する場合には、
直接引用文であるので、この処理を終了する。一方、か
ぎ括弧で囲まれた発話が存在しない場合には、ステップ
S2に進む。
【0019】ステップS2では、文中に引用表明部A4
が存在するか否かを判別し、引用表明部A4が存在しな
い場合には、この処理を終了する。一方、引用表明部A
4が存在する場合にはステップS3に進む。
【0020】ステップS3では、文中に話者特定部A1
が存在するか否かを判別し、話者特定部A1が存在しな
い場合はステップS4に進み、話者特定部A1が存在す
る場合はステップS6に進む。
【0021】ステップS4では、文中に特別引用開始部
A2bが存在するか否かを判別し、特別引用開始部A2
bが存在しない場合はステップS5に進み、特別引用開
始部A2bが存在する場合はステップS6に進む。
【0022】ステップS5では、係助詞”は”、格助
詞”が”等を持った文節を仮に話者特定部A1とし、ス
テップS6に進む。
【0023】ステップS6では、話者特定部A1の直後
に引用文開始位置マークとしてのかぎ括弧”「”を追加
し、引用表明部A4の直前に引用文終了位置マークとし
てのかぎ括弧”」”間を追加して引用候補文とし、ステ
ップS7に進む。
【0024】ステップS7では、かぎ括
弧”「”,”」”でくくられた引用候補文を前方から順
に見て、一般引用開始部A2aを探し、一般引用開始部
A2aがあれば、かぎ括弧”「”の位置を一般引用開始
部A2aの直後に移動させ、ステップS8に進む。
【0025】ステップS8では、かぎ括
弧”「”,”」”でくくられた引用候補文を後方から順
に見て、引用終了部A3を探し、引用終了部A3があれ
ば、かぎ括弧”」”の位置を引用終了部A3の直前に移
動させ、ステップS9に進む。
【0026】ステップS9では、かぎ括
弧”「”,”」”を追加されることにより直接引用文に
変換された文を出力して変換対象の文書を更新し、処理
を終了する。
【0027】間接引用文では、図4(A)に示す、主語
1(話者)と引用文内主語2と引用文内述語2と話者述
語(話者に対する述語)からなる文の係り受け解析で、
図4(C),(D)に示すような誤りが発生するおそれ
があるのに対し、引用文内主語2の直前にかぎ括
弧”「”が追加され、引用文内述語2の直後にかぎ括
弧”」”が追加された直接引用文では主語1が話者述語
に係り、引用文内述語2が引用文内述語2に係ることが
明示される。このため、本発明の引用文変換を行った文
書では、係り受け解析の精度が向上し、曖昧性を解消で
き、テキストからの情報抽出が容易になり、日本語機械
翻訳の精度を向上することができる。
【0028】なお、ステップS2が請求項記載の引用表
明部探査手段に対応し、ステップS3が話者特定部探査
手段に対応し、ステップS7が一般引用終了部探査手段
に対応し、ステップS8が引用終了部探査手段に対応
し、ステップS6がマーク設定手段に対応し、ステップ
S7が開始位置マーク移動手段に対応し、ステップS8
が終了位置マーク移動手段に対応し、ステップS4が特
別引用開始部探査手段に対応する。
【0029】
【発明の効果】上述の如く、請求項1に記載の発明によ
れば、文中の引用表明部を探し、文中の話者を特定して
いる文節である話者特定部を探し、文中の引用部分が開
始する箇所の直前の文節である一般引用開始部を探し、
引用部分が終了する箇所の直後の文節である引用終了部
を探し、話者特定部の直後に引用文開始位置マークを設
定し、引用表明部の直前に引用文終了位置マークを設定
し、引用文開始位置マークを一般引用開始部の直後に移
動させ、引用文終了位置マークを前記引用終了部の直前
に移動させることにより、間接引用文を直接引用文に変
換することができ、係り受け解析の精度が向上し、曖昧
性を解消でき、テキストからの情報抽出が容易になり、
日本語機械翻訳の精度を向上することができる。
【0030】また、請求項2,4に記載の発明によれ
ば、その前方に話者特定部を持たない特別引用開始部を
探し、特別引用開始部の直後に引用文開始位置マークを
設定することにより、さらに、特別引用開始部を持つ間
接引用文を直接引用文に変換することが可能となる。
【図面の簡単な説明】
【図1】本発明の引用文変換装置の一実施例のブロック
図である。
【図2】間接引用文の特徴的パターンを説明するための
図である。
【図3】引用文変換プログラムの一実施例のフローチャ
ートである。
【図4】間接引用文と直接引用文の係り受け解析を説明
するための図である。
【符号の説明】
10 ハードディスク装置 12 CPU 14 RAM 16 入出力インタフェース 18 入力装置 20 ディスプレイ装置 22 バス A1 話者特定部 A2 引用開始部 A2a 一般引用開始部 A2b 特別引用開始部 A3 引用終了部 A4 引用表明部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 加藤 直人 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 Fターム(参考) 5B009 QA03 QA17

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文中の引用表明部を探す引用表明部探査
    手段と、 前記文中の話者を特定している文節である話者特定部を
    探す話者特定部探査手段と、 前記文中の引用部分が開始する箇所の直前の文節である
    一般引用開始部を探す一般引用終了部探査手段と、 引用部分が終了する箇所の直後の文節である引用終了部
    を探す引用終了部探査手段と、 前記話者特定部の直後に引用文開始位置マークを設定
    し、前記引用表明部の直前に引用文終了位置マークを設
    定するマーク設定手段と、 前記引用文開始位置マークを前記一般引用開始部の直後
    に移動させる開始位置マーク移動手段と、 前記引用文終了位置マークを前記引用終了部の直前に移
    動させる終了位置マーク移動手段を有し、 間接引用文を直接引用文に変換することを特徴とする引
    用文変換装置。
  2. 【請求項2】 請求項1記載の引用文変換装置におい
    て、 その前方に話者特定部を持たない特別引用開始部を探す
    特別引用開始部探査手段を有し、 前記マーク設定手段は、前記特別引用開始部の直後に引
    用文開始位置マークを設定することを特徴とする引用文
    変換装置。
  3. 【請求項3】 コンピュータを、 文中の引用表明部を探す引用表明部探査手段、 前記文中の話者を特定している文節である話者特定部を
    探す話者特定部探査手段、 前記文中の引用部分が開始する箇所の直前の文節である
    一般引用開始部を探す一般引用終了部探査手段、 引用部分が終了する箇所の直後の文節である引用終了部
    を探す引用終了部探査手段、 前記話者特定部の直後に引用文開始位置マークを設定
    し、前記引用表明部の直前に引用文終了位置マークを設
    定するマーク設定手段、 前記引用文開始位置マークを前記一般引用開始部の直後
    に移動させる開始位置マーク移動手段、 前記引用文終了位置マークを前記引用終了部の直前に移
    動させる終了位置マーク移動手段、 として機能させるための引用文変換プログラム。
  4. 【請求項4】 請求項3記載の引用文変換プログラムに
    おいて、コンピュータを、 その前方に話者特定部を持たない特別引用開始部を探す
    特別引用開始部探査手段、として機能させ、 前記マーク設定手段は、前記特別引用開始部A2bの直
    後に引用文開始位置マークを設定することを特徴とする
    引用文変換プログラム。
JP2002059026A 2002-03-05 2002-03-05 引用文変換装置及びそのプログラム Pending JP2003256411A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002059026A JP2003256411A (ja) 2002-03-05 2002-03-05 引用文変換装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002059026A JP2003256411A (ja) 2002-03-05 2002-03-05 引用文変換装置及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2003256411A true JP2003256411A (ja) 2003-09-12

Family

ID=28668838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002059026A Pending JP2003256411A (ja) 2002-03-05 2002-03-05 引用文変換装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2003256411A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101501610B1 (ko) * 2009-06-15 2015-03-12 네이버 주식회사 인용문/화자 인식 시스템 및 방법
US9390722B2 (en) 2011-10-24 2016-07-12 Lg Electronics Inc. Method and device for quantizing voice signals in a band-selective manner

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101501610B1 (ko) * 2009-06-15 2015-03-12 네이버 주식회사 인용문/화자 인식 시스템 및 방법
US9390722B2 (en) 2011-10-24 2016-07-12 Lg Electronics Inc. Method and device for quantizing voice signals in a band-selective manner

Similar Documents

Publication Publication Date Title
CN107704480B (zh) 扩展和强化知识图的方法和系统以及计算机介质
JP4714400B2 (ja) スケーラブル機械翻訳システム
JP4494706B2 (ja) 2カ国語コーパスからの変換マッピングの自動抽出プログラム
JP5113750B2 (ja) 定義の抽出
CN1290076C (zh) 基于语音的不受语言限制的搜索系统和方法
WO2010046782A2 (en) Hybrid machine translation
JP2004355625A (ja) 機械トランスレータをトレーニングする方法およびそのシステム
JP2000132550A (ja) 機械翻訳のための中国語生成装置
JP2008269413A (ja) 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法
JPS61255469A (ja) 言語生成装置
JP2014194668A (ja) 翻訳支援装置、翻訳支援システムおよび翻訳支援プログラム
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4401269B2 (ja) 対訳判断装置及びプログラム
JP2003256411A (ja) 引用文変換装置及びそのプログラム
WO2022227166A1 (zh) 词语替换方法、装置、电子设备和存储介质
JP2007133905A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
WO2016131260A1 (zh) 一种文字处理方法和装置
JP2004362007A (ja) 文書登録装置、文書検索装置、プログラム及び記憶媒体
JP4812811B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP5087844B2 (ja) 照応解析システム、照応解析方法及び照応解析プログラム
JP3244286B2 (ja) 翻訳処理装置
JP3313810B2 (ja) アスペクト処理装置
JPH09185629A (ja) 機械翻訳方法
JP3267168B2 (ja) 自然言語変換システム