JP2003271591A - 上位概念抽出装置及び上位概念抽出プログラム - Google Patents

上位概念抽出装置及び上位概念抽出プログラム

Info

Publication number
JP2003271591A
JP2003271591A JP2002068974A JP2002068974A JP2003271591A JP 2003271591 A JP2003271591 A JP 2003271591A JP 2002068974 A JP2002068974 A JP 2002068974A JP 2002068974 A JP2002068974 A JP 2002068974A JP 2003271591 A JP2003271591 A JP 2003271591A
Authority
JP
Japan
Prior art keywords
term
superordinate concept
extracting
superordinate
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002068974A
Other languages
English (en)
Inventor
Ichiro Yamada
一郎 山田
Masahiro Shibata
正啓 柴田
Nobuyuki Yagi
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2002068974A priority Critical patent/JP2003271591A/ja
Publication of JP2003271591A publication Critical patent/JP2003271591A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 用語特定表現によって説明されている用語の
上位概念を的確に抽出することを目的とする。 【解決手段】 テキストデータ10中の「という」、
「と呼ばれる」等の用語特定表現を利用して、テキスト
データから、上位概念を抽出する上位概念抽出装置であ
る。上位概念抽出装置13は、用語の最終形態素解析部
14、用語の並列文節解析部15、用語の後続文節解析
部16及び上位概念選択部19から構成されており、形
態素解析・構文解析部11から得た係り受け情報に基づ
いて、その係り受け情報に含まれる文節から、用語とな
る文節を抽出し、その用語の上位概念を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、上位概念抽出装置
及び上位概念抽出プログラムに係り、特に、ニュース原
稿等のテキストデータ中の用語特定表現を利用して、テ
キストデータから、上位概念を抽出する上位概念抽出装
置及び上位概念抽出プログラムに関する。
【0002】
【従来の技術】従来、用語の上位概念が何であるかを特
定する場合は、人手により作成された辞書を利用してい
る。しかしながら、新しい用語が出現する度に、人手に
よって、辞書を更新することは難しい。
【0003】そこで、本出願の発明者らは、テキストデ
ータを形態素解析と構文解析とにより、文節単位に分解
し、その文節の文字列と、文節の係り受け関係とを係り
受け情報として生成し、更に、その係り受け情報により
処理対象となる文節を抽出し、抽出した文節における
「という」、「と呼ばれる」等の用語特定表現を利用し
て、用語の上位概念を抽出する発明を提案している(特
願2001-289477号出願)。
【0004】
【発明が解決しようとする課題】しかしながら、前記出
願されたものでは、構文解析の精度が十分でない場合、
用語の上位概念の抽出が必ずしも、的確に行なわれない
場合があった。つまり、用語の上位概念の候補となり得
るものが、複数存在するとの考慮がなく、構文解析の結
果に基づいて、上位概念を決定していた。
【0005】例えば、構文解析の精度が十分でない場
合、「・・・に溶けていた「ホスゲン」という人体に有
毒なガスが、・・・」というテキストデータから、「ホ
スゲン」の上位概念として「人体」を抽出していた。
【0006】本発明は、上記問題に鑑みなされたもので
あり、構文解析の精度が十分でない場合であっても、用
語の上位概念の候補となり得るものが複数存在すること
を前提にして、用語特定表現によって説明されている用
語の上位概念を的確に抽出することを目的とするもので
ある。
【0007】
【課題を解決するための手段】上記課題を解決するため
に、本件発明は、以下の特徴を有する課題を解決するた
めの手段を採用している。
【0008】請求項1に記載された発明は、テキストデ
ータ中の用語特定表現を利用して、テキストデータか
ら、上位概念を抽出する上位概念抽出装置において、前
記用語特定表現に後続する文節が連体修飾節であるか否
かを解析して、前記用語特定表現によって説明されてい
る用語の複数の上位概念候補を抽出する上位概念候補抽
出手段を有することを特徴とする。
【0009】請求項1に記載された発明によれば、用語
特定表現に後続する文節が連体修飾節であるか否かを解
析して、前記用語特定表現によって説明されている用語
の複数の上位概念候補を抽出する上位概念候補抽出手段
を有することにより、用語の上位概念の候補となり得る
ものが複数存在することを前提にして、用語特定表現に
よって説明されている用語の上位概念を的確に抽出する
こができる。
【0010】請求項2に記載された発明は、テキストデ
ータ中の用語特定表現を利用して、テキストデータか
ら、上位概念を抽出する上位概念抽出装置において、一
の用語の複数の上位概念候補を抽出する上位概念候補抽
出手段と、前記一の用語を修飾する動詞と、前記上位概
念候補抽出手段により抽出された前記上位概念候補との
整合度に基づいて、前記一の用語の上位概念を選択する
上位概念選択手段とを有することを特徴とする。
【0011】請求項2に記載された発明によれば、一の
用語の複数の上位概念候補を抽出する上位概念候補抽出
手段と、前記一の用語を修飾する動詞と、前記上位概念
候補抽出手段により抽出された前記上位概念候補との整
合度に基づいて、前記一の用語の上位概念を選択する上
位概念選択手段を有することにより、複数の上位概念候
補から、最適な上位概念を的確の選択することができ
る。
【0012】請求項3に記載された発明は、テキストデ
ータ中の用語特定表現を利用して、テキストデータか
ら、上位概念を抽出する上位概念抽出プログラムであっ
て、前記用語特定表現に後続する文節が連体修飾節であ
るか否かを解析して、前記用語特定表現によって説明さ
れている用語の複数の上位概念候補を抽出する上位概念
候補抽出手段として、コンピュータを動作させる上位概
念抽出プログラムである。
【0013】請求項4に記載された発明は、テキストデ
ータ中の用語特定表現を利用して、テキストデータか
ら、上位概念を抽出する上位概念抽出プログラムであっ
て、一の用語の複数の上位概念候補を抽出する上位概念
候補抽出手段と、前記一の用語を修飾する動詞と、前記
上位概念候補抽出手段により抽出された前記上位概念候
補との整合度に基づいて、前記一の用語の上位概念を選
択する上位概念選択手段として、コンピュータを動作さ
せる上位概念抽出プログラムである。
【0014】請求項3、4記載の発明は、請求項1又は
2記載の上位概念抽出装置に適した上位概念抽出プログ
ラムである。
【0015】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面と共に説明する。図1は、ニュース原稿から、用
語特定表現によって説明されている用語の上位概念を抽
出する構成を説明するための図である。
【0016】図1の構成により、形態素解析・構文解析
部11及び上位概念抽出装置13により、ニュース原稿
10において用語特定表現によって説明されている用語
の上位概念が抽出される。
【0017】形態素解析・構文解析部11は、ニュース
原稿10を解析する。具体的には、ニュース原稿を文節
形態素解析と構文解析とにより、文節単位に分解し、そ
の文節の文字列と、文節の係り受け関係とを係り受け情
報として生成し、上位概念抽出装置13に送出する。こ
のように、形態素解析・構文解析部11は、意味を担う
最小の言語単位である形態素を同定し、構文解析によっ
て、名詞句、動詞句などの文節及びその係り受け関係を
同定する。なお、この形態素解析や構文解析は、公知の
技術である特開2000−259629号公報、特開平
9−101958号公報等を用いて実現できる。
【0018】上位概念抽出装置13は、用語の最終形態
素解析部14、用語の並列文節解析部15、用語の後続
文節解析部16及び上位概念選択部19を有しており、
形態素解析・構文解析部11から得た係り受け情報に基
づいて、その係り受け情報に含まれる文節から、用語と
なる文節を抽出し、その用語の上位概念を抽出する。
【0019】上位概念抽出装置13は、ニュース原稿1
0の表層的特徴を基に、用語の上位概念を抽出する。用
語の最終形態素解析部14は、用語の最終形態素が上位
概念となる場合は、用語の最終形態素に基づいて、上位
概念を抽出する。具体的には、抽出された用語に対して
形態解析により得られた用語の最終形態素が別途作成さ
れている辞書に存在する場合は、用語の最終形態素に基
づいて、上位概念を抽出する。
【0020】例えば、「航空安全法」の場合は、「航空
安全法」の最終形態素である「法」を上位概念とする。
【0021】用語の並列文節解析部15は、用語の直前
に「上位概念」がある場合は、その「上位概念」をその
用語の上位概念とする。具体的には、抽出された用語と
並列関係にある直前の名詞を上位概念とする。
【0022】例えば、「通貨「ユーロ」の・・・」場合
は、「通貨」を「ユーロ」の上位概念とする。
【0023】用語の後続文節解析部16は、用語の上位
概念候補抽出処理を行う上位概念候補抽出処理部17
と、用語の上位概念選択処理を行う上位概念選択処理部
18とを有する。
【0024】上位概念候補抽出処理部17は、ニュース
原稿10から処理対象とすべき用語が存在するか否かを
判断する。「という」、「と呼ばれる」等の用語特定表
現を手がかりとしている。上位概念候補抽出処理部17
は、 「用語」⇒「という」⇒ 文節 ⇒ 文節 ・・・ 又は 「用語」⇒「と呼ばれる」⇒ 文節 ⇒ 文節 ・・・ という表現があった場合に、用語の上位概念の候補とし
て、形態素解析・構文解析部11から得た結果を利用し
て係り先の文節を抽出する。
【0025】この処理を図2に示す。先ず、「とい
う」、「と呼ばれる」等の用語特定表現が含まれる文節
であるか否かを判断する(S11)。「という」、「と
呼ばれる」等の用語特定表現が含まれていなければ(S
11:No)、処理は終了する。「という」、「と呼ば
れる」等の用語特定表現が含まれていれば(S11:Y
es)、「という」、「と呼ばれる」等の係り先の文節
を処理対象として(S12)、処理対象の文節を抽出す
る(S13)。次いで、処理対象文節が連体修飾節であ
るか否かを判断する(S15)。処理対象文節が連体修
飾節であれば(S15:Yes)、係り先の文節を抽出
し(S13)、処理対象を係り先の文節とする(S1
4)。処理対象文節が連体修飾節でなければ(S15:
No)、処理対象を係り先の文節とし(S17)、S1
8では新たな処理対象となった文節の係り先が連体修飾
節であれば、S13へ、連体修飾節でなければ、抽出さ
れた文節から機能語(格助詞など)を取り除き、名詞句を
上位概念候補として、出力する(S16)。
【0026】例えば、「膝をついたままの姿勢で相撲を
取る「ねまり相撲」という青森県の津軽地方に伝わる相
撲の大会がきょう弘前市で開かれました。」のニュース
原稿の場合は、S11はYesであり、S12で「ねま
り相撲という」が処理対象となり、S13で処理対象
「ねまり相撲という」の係り先「青森県の」が上位概念
候補として抽出される。S14で処理対象が「青森県
の」になる。処理対象「青森県の」は、「津軽地方に」
を修飾する連体修飾節であるのため(S15:Ye
s)、S13において、「津軽地方に」が上位概念候補
として抽出され、S14で処理対象が「津軽地方に」に
なる。処理対象「津軽地方に」は連体修飾節ではない
(S15:No)ので、処理対象を、係り先「伝わる」
とする(S17)。処理対象「伝わる」は、「相撲の」
を修飾する連体修飾節であるため(S18:Yes)、
S13において、係り先の「相撲の」が上位概念候補と
して抽出され、S14で処理対象が「相撲の」になる。
処理対象「相撲の」は、「大会が」を修飾する連体修飾
節であるのため(S15:Yes)、S13において、
「大会が」が上位概念候補として抽出され、S14で処
理対象が「大会が」になる。処理対象「大会が」は連体
修飾節ではないため(S15:No)、処理対象は、そ
の係り先「開かれました。」になり(S17)、処理対
象「開かれました。」は連体修飾節ではないので、抽出
された文節から機能語をとり除き、「青森県」、「津軽
地方」、「相撲」、「大会」の4つの単語を上位概念候
補として、出力する(S16)。
【0027】上位概念選択処理部18は、上位概念候補
抽出処理部17により、抽出された上位概念候補の中か
ら、ニュース原稿中での整合性を評価することにより、
最適な用語の上位概念を選択する。この処理を図3を用
いて説明する。
【0028】先ず、過去に蓄積されたニュース原稿集合
から、全ての単語の係り受け関係を抽出して解析する
(S21)。この処理では、単語の出現頻度と係り受け
関係にある名詞と動詞と、その係り受けで利用される格
助詞(係助詞)の共起頻度を求める。単語Wの出現頻度を
C(W)、名詞Wnと動詞Wvとその係り受けで利用され
た助詞iの共起頻度をCi(Wn、Wv)としたとき、名
詞Wnと動詞Wvの2つの単語がどれくらいの整合度を
持つかを示す指標を、整合度(Wn、Wv)として、下記
の式とする。
【0029】
【数1】 ここで、格助詞、係助詞の総数をmとしている。この整
合度(Wn、Wv)は、名詞が動詞の格としてニュース原
稿中で利用される回数が多いほど、大きな値を持つ。
【0030】次に、「という」、「と呼ばれる」等の用
語特定表現を有するニュース原稿を解析して、用語特定
表現により説明されている用語に係る動詞を抽出する
(S22)。次いで、用語に係る動詞と上位概念候補抽
出処理部17により抽出された上位概念候補との整合度
(Wn、Wv)を式(1)により、評価する(S23)。
最大の整合度(Wn、Wv)を有する上位概念候補とその
整合度(Wn、Wv)を出力する(S24)。
【0031】例えば、「膝をついたままの姿勢で相撲を
取る「ねまり相撲」という青森県の津軽地方に伝わる相
撲の大会がきょう弘前市で開かれました。」のニュース
原稿の場合は、上位概念候補抽出処理部17により、
「青森県」、「津軽地方」、「相撲」、「大会」が、上
位概念候補として出力されている。
【0032】一方、用語「ねまり相撲」に係る動詞「取
る」が、ステップ22で抽出される。次いで、「相撲」
及び「大会」と動詞「取る」の整合度(Wn、Wv)を評
価して、その最大であった「相撲」が上位概念として出
力される。
【0033】上位概念抽出装置13における上位概念選
択部19は、最終的に、用語の最終形態素解析部14、
用語の並列文節解析部15及び用語の後続文節解析部1
6の出力から、最適な上位概念を選択する。
【0034】上位概念選択部19は、最も信頼できる用
語の並列文節解析部15の出力を最優先させ、次に、用
語の後続文節解析部16の出力を優先させ、最後に、用
語の最終形態素解析部14の出力を選択する。
【0035】なお、上位概念抽出装置13において、連
体修飾節から用語の上位概念を抽出し、この上位概念を
抽出した連体修飾節と統合することにより、定義文を自
動的に生成することができる。
【0036】ところで、新たな用語がニュースで扱われ
る場合は、視聴が容易に理解できるように、用語の説明
を伴うことが多い。従って、ニュース原稿から生成され
た定義文は、最新の用語の定義文であり、この定義か
ら、最新の用語集又は用語辞書を作成することができ
る。
【0037】このように、本実施の形態によれば、テキ
ストデータに含まれる用語特定表現に後続する文節が連
体修飾節形であるか否かを解析することにり、前記用語
特定表現によって説明されている用語の上位概念を的確
に抽出することができる。
【0038】
【発明の効果】上述の如く本発明によれば、構文解析の
精度が十分でない場合であっても、用語の上位概念の候
補となり得るものが複数存在することを前提にして、用
語特定表現によって説明されている用語の上位概念を的
確に抽出することができる。
【0039】
【図面の簡単な説明】
【図1】ニュース原稿から、用語特定表現によって説明
されている用語の上位概念を抽出する構成を説明するた
めの図である。
【図2】上位概念候補抽出手順のフローチャートであ
る。
【図3】用語の上位概念選択手順のフローチャートであ
る。
【符号の説明】
10 ニュース原稿 11 係り受け解析部 13 上位概念抽出装置 14 用語の最終形態素解析部 15 用語の並列文節解析部 16 用語の後続文節解析部 17 上位概念候補抽出処理部 18 上位概念選択処理部 19 上位概念選択部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 八木 伸行 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 Fターム(参考) 5B091 AA15 CA02 CA05 CC04 CC15

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 テキストデータ中の用語特定表現を利用
    して、テキストデータから、上位概念を抽出する上位概
    念抽出装置において、前記用語特定表現に後続する文節
    が連体修飾節であるか否かを解析して、前記用語特定表
    現によって説明されている用語の複数の上位概念候補を
    抽出する上位概念候補抽出手段を有することを特徴とす
    る上位概念抽出装置。
  2. 【請求項2】 テキストデータ中の用語特定表現を利用
    して、テキストデータから、上位概念を抽出する上位概
    念抽出装置において、一の用語の複数の上位概念候補を
    抽出する上位概念候補抽出手段と、前記一の用語を修飾
    する動詞と、前記上位概念候補抽出手段により抽出され
    た前記上位概念候補との整合度に基づいて、前記一の用
    語の上位概念を選択する上位概念選択手段とを有するこ
    とを特徴とする上位概念抽出装置。
  3. 【請求項3】 テキストデータ中の用語特定表現を利用
    して、テキストデータから、上位概念を抽出する上位概
    念抽出プログラムであって、前記用語特定表現に後続す
    る文節が連体修飾節であるか否かを解析して、前記用語
    特定表現によって説明されている用語の複数の上位概念
    候補を抽出する上位概念候補抽出手段として、コンピュ
    ータを動作させる上位概念抽出プログラム。
  4. 【請求項4】 テキストデータ中の用語特定表現を利用
    して、テキストデータから、上位概念を抽出する上位概
    念抽出プログラムであって、一の用語の複数の上位概念
    候補を抽出する上位概念候補抽出手段と、前記一の用語
    を修飾する動詞と、前記上位概念候補抽出手段により抽
    出された前記上位概念候補との整合度に基づいて、前記
    一の用語の上位概念を選択する上位概念選択手段とし
    て、コンピュータを動作させる上位概念抽出プログラ
    ム。
JP2002068974A 2002-03-13 2002-03-13 上位概念抽出装置及び上位概念抽出プログラム Pending JP2003271591A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002068974A JP2003271591A (ja) 2002-03-13 2002-03-13 上位概念抽出装置及び上位概念抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002068974A JP2003271591A (ja) 2002-03-13 2002-03-13 上位概念抽出装置及び上位概念抽出プログラム

Publications (1)

Publication Number Publication Date
JP2003271591A true JP2003271591A (ja) 2003-09-26

Family

ID=29199955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002068974A Pending JP2003271591A (ja) 2002-03-13 2002-03-13 上位概念抽出装置及び上位概念抽出プログラム

Country Status (1)

Country Link
JP (1) JP2003271591A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334504A (ja) * 1994-06-08 1995-12-22 Meidensha Corp 日本語処理システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334504A (ja) * 1994-06-08 1995-12-22 Meidensha Corp 日本語処理システム

Similar Documents

Publication Publication Date Title
US7069207B2 (en) Linguistically intelligent text compression
Woliński Morfeusz—a practical tool for the morphological analysis of Polish
Täckström et al. Efficient inference and structured learning for semantic role labeling
US8285541B2 (en) System and method for handling multiple languages in text
KR20160105400A (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
CN1954315A (zh) 用于将汉语拼音翻译成汉字的系统和方法
WO2015127747A1 (zh) 一种添加多媒体文件的方法和设备
CN110096599B (zh) 知识图谱的生成方法及装置
JP3596210B2 (ja) 関連語辞書作成装置
Bick Annotating emoticons and emojis in a German-Danish social media corpus for hate speech research
TW548600B (en) Method and system for identifying attributes of new words in non-segmented text
Savary et al. Language resources for named entity annotation in the National Corpus of Polish
CN109800430B (zh) 一种语义理解方法及系统
Jabbar et al. A comparative review of Urdu stemmers: Approaches and challenges
US20240169150A1 (en) Foreign language phrases learning system based on basic sentence pattern unit decomposition
KR100886687B1 (ko) 중국어 미등록어 자동 추출 방법 및 장치
JP2003271591A (ja) 上位概念抽出装置及び上位概念抽出プログラム
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JP4024137B2 (ja) 数量表現検索装置
Bessou et al. An accuracy-enhanced stemming algorithm for Arabic information retrieval
Bessou et al. An accuracy-enhanced stemming algorithm for Arabic information retrieval
JP2002189734A (ja) 検索語抽出装置および検索語抽出方法
JP2004280316A (ja) 分野判定装置及び言語処理装置
Ramisch Putting the horses before the cart: identifying multiword expressions before translation
JPS63228326A (ja) キ−ワ−ド自動抽出方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050719

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050915

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051018