JP5447862B2 - 単語分類システム、方法およびプログラム - Google Patents

単語分類システム、方法およびプログラム Download PDF

Info

Publication number
JP5447862B2
JP5447862B2 JP2010505983A JP2010505983A JP5447862B2 JP 5447862 B2 JP5447862 B2 JP 5447862B2 JP 2010505983 A JP2010505983 A JP 2010505983A JP 2010505983 A JP2010505983 A JP 2010505983A JP 5447862 B2 JP5447862 B2 JP 5447862B2
Authority
JP
Japan
Prior art keywords
word
classification
words
pair
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010505983A
Other languages
English (en)
Other versions
JPWO2009123288A1 (ja
Inventor
弘紀 水口
正明 土田
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010505983A priority Critical patent/JP5447862B2/ja
Publication of JPWO2009123288A1 publication Critical patent/JPWO2009123288A1/ja
Application granted granted Critical
Publication of JP5447862B2 publication Critical patent/JP5447862B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は単語分類システム、単語分類方法および単語分類用プログラムに関する。
語彙分類手法の一例が、非特許文献1に記載されている。語彙分類手法の一つである単語抽出は、単語を、組織名、地名、人名、日付などの固有表現と呼ばれるカテゴリに単語分類する手法である。この手法は、テキストにあらかじめ固有表現を付与した学習データを入力し、単語分類規則を学習することで、人手によるルール生成作業を軽減することができる。
非特許文献1では、各単語個別における出現位置周辺の文脈情報を元に単語分類規則を学習する。周辺とは、出現位置前後の2単語程度であり、文脈情報とは、単語、品詞、文字種である。これらの情報を元に、固有表現カテゴリ毎に単語分類規則を学習する。すなわち、組織名か否かを判定する単語分類規則、地名か否かを判定する単語分類規則などである。単語分類規則はSupport Vector Machinesと呼ばれる学習手法のバイナリデータとして記述されるため、人間が視認できる情報ではないが、概念的には、組織名の単語分類規則は、「大会を<組織名>が開催」や「システムを<組織名>が開発」といった単語規則などが学習されると考えられる。
また、本発明に関連する単語分類の技術が、特許文献1に記載されている。特許文献1に記載されている技術は、各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示す値の組を複数格納しているコアワード辞書と、文書を格納している文書データベースとを用意しておき、文書データベースの格納文書から分類対象単語を検索し、さらに、その共起関係にある単語を抽出する。そして、抽出された各共起関係単語が、コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードの値から、カテゴリの順位付け判定値を形成して、分類対象単語が属するカテゴリを決定している。ここで、コアワードとはカテゴリに特有でかつ代表的な単語である。例えば、カテゴリ「芸術」であれば、「芸術」を良く表す代表的な単語で、そのカテゴリに関係する単語であり、「映画」、「音楽」、「監督」などである。
山田、工藤、松本、「Support Vector Machinesを用いた日本語固有表現抽出」、情報処理学会研究報告−自然言語処理、Vol.2001, No.20, 121-128ページ 特開2004−334766号公報
上述した非特許文献1に記載された技術の問題点は、粒度のあらい分類しかできないことである。その理由は、単語個別の出現位置における文脈情報のみを手がかりにしているためである。例えば、日本のプロ野球チームとアメリカのプロ野球チームを分類する場合、例えば、「Aチーム」や「Bチーム」と言ったそれぞれの単語出現箇所周辺の文脈情報は酷似しているため、分類することはできない。
また、特許文献2に記載に記載された技術の問題点は、コアワードとなりうる単語を予め用意する必要があるといことである。従って、この準備は非常に手間がかかる作業であり、十分なコアワードが揃わなければ、粒度のあらい分類しかできないことである。
そこで、本発明は、上記課題に鑑みて発明されたものであって、その目的は、詳細に単語を分類できる技術を提供することにある。
上記課題を解決する本発明は、単語分類システムであって、記憶されている文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかである文脈情報及び単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示すレイアウト情報の少なくともいずれかから成る前記分類既知単語の組である単語対の学習データを作成し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを示す単語間パターンを前記学習データに基づいて作成する単語間パターン学習部と、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する単語間パターン適用部と、前記単語間パターン適用部の判断結果に基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有する。
上記課題を解決する本発明は、単語分類システムであって、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを示す単語間パターンを作成する単語間パターン学習部と、前記作成された単語間パターンが格納される単語間パターン記憶部と、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを出力する単語間パターン適用部と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有し、前記文脈情報は単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかであり、前記レイアウト情報は単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示す
上記課題を解決する本発明は、単語間パターン学習部が、記憶されている文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかである文脈情報及び単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示すレイアウト情報の少なくともいずれかから成る前記分類既知単語の組である単語対の学習データを作成し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成し、適用データ作成部が、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、分類判定部が、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断し、前記判断結果に基づいて、前記分類未知単語の分類を判定する単語分類方法である。
上記課題を解決する本発明は、単語間パターン学習部が、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、単語間パターン学習部が、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを示す単語間パターンを作成し、単語間パターン適用部が、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別し、分類判定部が、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定し、前記文脈情報は単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかであり、前記レイアウト情報は単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示す単語分類方法である。
上記課題を解決する本発明は、単語間パターン学習部が、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかである文脈情報及び単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示すレイアウト情報の少なくともいずれかに基づいて、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを示す単語間パターンを作成する単語間パターン学習処理と、適用データ作成部が、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する単語間パターン適用処理と、分類判定部が、前記判断結果に基づいて、前記分類未知単語の分類を判定する単語間パターン学習処理を情報処理装置に実行させるプログラムである。
上記課題を解決する本発明は、単語間パターン学習部が、記憶されている文書で共出現する同分類既知単語間の単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかである文脈情報及び単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示すレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成する処理と、単語間パターン学習部が、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを示す単語間パターンを作成する処理と、適用データ作成部が、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成する処理と、単語間パターン適用部が、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別する処理と、分類判定部が、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する処理とを情報処理装置に実行させるプログラムである。
本発明は、分類判定に用いるデータとして、共出現する分類既知単語間の関係を用いているので、詳細に単語の分類を判定することができる。
図1は第1の実施の形態の単語分類システムのブロック図である。 図2は分類既知単語群データベース1の一例を示す図である。 図3は文書群データベース2の一例を示す図である。 図4は第1の実施の形態における学習データの一例を示す図である。 図5は第1の実施の形態における学習データの一例を示す図である。 図6は第2の実施の形態の単語分類システムのブロック図である。 図7は第2の実施の形態における学習データの一例を示す図である。 図8は第2の実施の形態の単語分類システムのブロック図である。
1 分類既知単語群データベース
2 文書群データベース
3 単語間パターンデータベース
4 単語間パターン学習部
5 単語間パターン適用部
6 分類判定部
7 入力部
8 出力部
本実施の形態の特徴を説明する。
同じ分類の単語は、一つの文で共出現することが多く、同分類の単語間の単語や品詞は同じことが多い。したがって、単語それぞれの文脈情報のみではなく、同分類の単語間の関係を考慮することで、より詳細な単語分類を行うことができる。
ここで、単語間の関係とは、二つの単語間の表層文字列、その出現回数、品詞、共起回数、レイアウト情報などを指す。例えば、日本のプロ野球チーム名同士であれば、ニュース記事の文に対戦相手として記載されることが多かったり、句読点や、記号などで続けて記載されたりする場合が多い。しかし、アメリカのプロ野球チーム名と日本のプロ野球チーム名とは、トレードの情報などの記載しかなく、多くの頻度がない。さらに、句読点や記号などで続けて書かれることは少ない。
そこで、本発明は、分類が既知である単語(以下、分類既知単語と記載する)間の関係に基づいて、未分類の単語(以下、分類未知単語と記載する)の分類を判定する為のパターンデータを作成する。
例えば、分類A:{a,b,c}、分類B:{d,e}、分類C:{g,h}という分類が与えられたとする。ここで、a,b,c,d,e,g,hは単語であり、分類名:{単語集合}は分類名とその単語集合を表すこととする。尚、a,b,c,d,e,g,hといった単語は、上述のコアワードである必要はなく、「AAAウォーズ」や「BBB物語」といった映画名そのものの単語や、「Cチーム」といったチーム名そのものの単語で良い。
そして、分類既知単語の単語対ごとに単語間の関係から学習データを作成する。このとき、同分類の分類既知単語(以下、同分類既知単語と記載する)の単語対を正例、異分類の分類既知単語(以下、異分類既知単語と記載する)の単語対を負例とする。例えば、分類既知単語aと分類既知単語bとは同分類であり、その単語対(以下も単語対をa―bと表す)は同分類既知単語の単語対なので、同分類既知単語の単語対は正例である。また、分類既知単語aと分類既知単語dとは異分類であり、その単語対(以下も単語対をa―dと表す)は異分類既知単語の単語対なので、異分類既知単語の単語対は負例である。
単語間の関係とは、単語aと単語bとが出現する文書の単語aと単語bとの間の文脈情報、レイアウト情報である。ここで、文脈情報とは、単語そのものや、周辺単語、単語間にある語の表層文字列、出現回数、品詞、文字種、共起頻度、単語間距離、係り受け関係、自然文中にあるかである。また、レイアウト情報とは、縦または横に並んでいるか、文字の大きさは同じか、HTML等の木構造の場合木の深さは同じかである。
このようにして、分類既知単語間の関係をもとに、分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかから成る学習データを作成する。続いて、この学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する。
そして、この単語間パターンを用いて、分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判別し、判別の結果に基づいて、分類未知単語の分類を判定するのである。
以下、具体的な実施の形態を説明する。
<第1の実施の形態>
第1の実施の形態を説明する。
図1は第1の実施の形態における単語分類システムのブロック図である。
第1の実施の形態における単語分類システムは、分類が既知の単語群が記憶された分類既知単語群データベース1と、文書群が記憶された文書群データベース2と、学習した単語間パターンが記憶される単語間パターンデータベース3と、分類既知単語群データベース1に記憶されている分類既知の単語集合から、分類既知単語間の文脈情報及びレイアウト情報を学習して単語間パターンを作成する単語間パターン学習部4と、単語間パターンデータベース3に記憶されている単語間パターンを用いて、分類未知の単語を含む単語対の適用データを判断する単語間パターン適用部5と、単語間パターン適用部5の判断結果に基づいて、分類未知の単語の分類を判定する分類判定部6と、分類未知の単語を入力するキーボード等の入力部7と、分類判定部6の判定結果を出力する出力部8とを備える。
分類既知単語群データベース1は、分類が既知の単語群が分類ごとに記憶されている。分類既知単語群データベース1の一例を図2に示す。図2では、複数の分類が、「分類名{単語群}」の形式で保持されている。例えば、「分類A:{a,b,c}」は、分類Aに、単語aと単語bと単語cとが分類されていることを示す。この記憶方法は一例であり、一つの単語が複数の分類に所属してもよいし、単語毎に分類名を記述してもよい。
文書群データベース2は、複数の文書が記憶されている。文書群データベース2の一例を図3に示す。図3では、1レコードに一文書を示しており、図中の「・・・」は省略を表している。
単語間パターンデータベース3には、単語間パターン学習部4で作成された単語間パターンが記憶されている。この単語間パターンは、二つの単語間の関係のデータを入力すると、そのデータが、二つの単語が同じ分類同士のデータであるか否かを示すパターンである。単語間パターンは、学習アルゴリズムによって記述方法が異なる。例えば、Support Vector Machinesを用いる場合、バイナリデータとなる。尚、単語間パターンについては、後述する。
単語間パターン学習部4は、分類既知単語群データベース1に記憶されている分類既知単語群を入力し、文書群データベース2の文書群を参照しながら、学習データを作成する。そして、学習データに基づいて単語間パターンを作成する。単語間パターン学習部4は、学習データ作成部11と、パターン作成部12とを備えている。
学習データ作成部11は、分類既知単語群データベース1に記憶されている分類既知単語の組である単語対が文書群データベース2に記憶されている文書で共出現する出現位置毎にその単語間の関係をもとに文脈情報及びレイアウト情報を学習し、その単語対の文脈情報及びレイアウト情報から成る学習データを作成する。
例えば、「分類A:{a,b,c}」、「分類B:{d,e}」、「分類C:{g,h}」という分類が与えられた場合、a−b,a−c,a−d,a−e,a−g,a−h,b−c,b−d,b−e,b−g,b−h,c−d,c−e,c−g,c−h,d−e,d−g,d−h,e−g,e−h,g−hの単語対(以下、単語対を、例えばa−bと表す)を作成する。
このとき、同分類既知単語の単語対を正例、異分類既知単語の単語対を負例とする。例えば、単語aと単語bとの単語対は、単語a、単語b共に分類Aに属するので、同分類であり正例である。また、単語aと単語dとの単語対は、単語aは分類Aに属し、単語dは分類Bに属するので、異分類であり負例である。
また、単語間の関係とは、単語aと単語bとが出現する文書の単語間の文脈情報、レイアウト情報である。ここで、文脈情報とは、単語そのものや、周辺文字列、単語間にある語の表層文字列、出現回数、品詞、文字種、共起頻度、単語間距離、係り受け関係、自然文中にあるか等である。また、レイアウト情報とは、単語aと単語bとが、縦または横に並んでいるか、文字の大きさは同じか、HTMLなどの木構造の場合木の深さは同じか等である。
このようにして、これら単語対が文書群データベース2に記憶されている文書で共出現する出現位置毎に単語対の文脈情報及びレイアウト情報とその単語対の正例又は負例の情報とを含む学習データを作成する。
パターン作成部12は、学習データ作成部11が作成した学習データに基づいて、パターンを学習し、単語間パターンデータを作成する。例えば、入力された単語対の適用データが同じ分類を示すものであれば正例、異なる分類であれば負例と判断するような単語間パターンを作成する。そして、作成した単語間パターンを単語間パターンデータベース3に登録する。尚、単語間パターンデータ自体の作成には、Support Vector Machines など既存のものを用いる。
単語間パターン適用部5は、分類が未知の単語を入力部7から入力し、この分類未知単語を含む単語対の適用データを判断する。単語間パターン適用部5は、適用データ作成部21と、パターン適用部22とを備える。
適用データ作成部21は、入力された分類未知単語について、分類既知単語群データベース1に記憶されている分類が既知の単語群と文書群データベース2の文書群とを参照し、適用データを作成する。ここでは、分類未知単語と分類既知単語群データベース1に記憶されているそれぞれの分類既知単語との単語対を作成する。例えば、分類未知単語fが与えられた場合、分類未知単語fと分類既知単語a,b,c,d,e,g,hとから、f−a,f−b,f−c,f−d,f−e,f−g,f−hの単語対を作成する。そして、これら単語対が文書群データベース2に記憶されている文書で共出現する出現位置毎にその単語間の関係をもとに、その単語対の文脈情報及びレイアウト情報から成る適用データを作成する。尚、この適用データは、上述した学習データ作成部11における学習データから単語対の正例、負例の情報を除いたものと同様なものである。
パターン適用部22は、分類未知単語と分類既知単語との単語対の適用データを入力し、その単語対の適用データを、単語間パターンデータベース3に記憶されている単語間パターンを参照して解析する。そして、分類未知単語と分類既知単語との単語対の適用データが正例か負例かを出力する。尚、パターン適用部22には、単語間パターン作成部12と同様にSupport Vector Machines など既存のものを用いる。
分類決定部6は、分類未知単語と分離既知単語との単語対の適用データの正例又は負例の情報と、その単語対の分離既知単語の分類とを入力し、分類スコアを計算し、分類未知単語の分類を判定する。分類の判定方法としては、どの分類の単語と正例が多かったかを計算し、分類を判定する方法がある。
次に、図1の構成を参照して本実施の形態の動作について説明する。
まず、単語間パターン学習部4が、分類既知単語群データベース1に記憶されている分類が既知の単語群を入力し、文書群データベース2の文書群を参照しながら、学習データを作成する。そして、学習データに基づいて単語間パターンを作成する。
具体的には、学習データ作成部11が、分類既知単語群データベース1に記憶されている分類既知単語群と文書群データベース2の文書群とを入力し、分類既知単語群データベース1に記憶されている全ての分類既知単語を組合せの単語対について、その単語対の単語が文書内で共出現する出現位置毎に単語間の関係をもとに文脈情報とレイアウト情報とを学習し、学習データを作成する。学習データは、単語間の文脈情報とレイアウト情報とから作成する。
例えば、図2に示される分類既知単語群であるa,b,c,d,e,g,hの単語の全ての組合せ(単語対)について、それらの単語対が出現する文書の出現位置毎に学習データを作成する。
単語対a−bの学習データの一例を図4、図5に示す。ここで、図4は、図3における1レコード目の文書における単語対a−bの出現位置をもとに作成した学習データの一例であり、図5は図3の2レコード目の文書における単語対a−bの出現位置をもとに作成した学習データの一例である。
文脈情報として、単語間表層文字列、単語間品詞、単語間文字種(ひらがな、漢字、数字、記号、アルファベット、タグ)、係り受け関係にある文節に存在するか、並立関係にある文節に存在するか、単語間の形態素数を示している。
レイアウト情報として、自然文内に出現しているか、縦横がそろっているか、文字の大きさは同じか、左右の文字列は同じかを示している。
ここで、単語の分割や、品詞、単語間形態素数は、chasenなどの既存の形態素解析ツールを用いることができる。係り受けや並立関係認識にはcabochaなどの既存の構文解析ツールの出力を用いることができる。図5における“<td>”や“</td>”などHTMLタグに関わる文字列の品詞を、“未知語-開始タグ”や、“未知語-終了タグ”として認識させるよう、形態素解析ツールの辞書をあらかじめ設定しておくと良い。なぜなら、通常これらの文字列は未知語として認識され、単なる記号やアルファベットとして認識されてしまい、有効な学習ができないためである。
また、縦横にそろっているか否か、文字の大きさは、各文書の描画ツールを用いてそのレイアウト箇所から判断する。このとき、標準的なサイズで描画した場合を考える。例えば、HTMLデータの場合、既存のWebブラウザによって、1024×768の画面サイズでレイアウトした出力を用いる。また、HTMLデータの場合、文字列の大きさや、描画位置は、HTMLタグ情報で決まることが多いため、実際にレイアウトは行なわずタグ情報を利用して判定しても良い。
同じ種類の単語は同じ文書に出現し、間に存在する単語も、「と」などの並立関係を表す単語や、読点や「・」などの記号で併記されることが多いため、単語間の表層文字列や、品詞、文字種、係り受け関係といった文脈情報を学習データに利用する。
自然文ではなく、HTMLなどの半構造データの場合、同種文字列はテーブルなどのレイアウト情報に基づいて整理されることが多いため、縦横にそろっているか否か、文字の大きさといったレイアウト情報を学習データに用いている。また、HTMLデータの場合、同じレイアウトになる場合、左右の文字列が同じ場合が多いため、学習データに用いている。判定のために用いる文字列の長さは、システムで保持する。本実施形態では4文字としている。
図4の学習データの例を説明する。図3の1レコード目の文書を参照すると、単語対a−bが出現する位置の間には「と」の文字が存在する。形態素解析ツールを用いると、これは助詞であることがわかる。この文字種はひらがなを含んでいる。また、構文解析ツールを用いると、単語対a−bの出現位置の文節同士には係り受け関係がないが並立の関係であるとわかる。この二つの単語はHTMLタグなどで囲まれていないため、自然文にあることがわかる。テキストエディアで描画すると横にそろっていることがわかる。文字列の大きさも同じである。aとbとのそれぞれの、左右4文字は同じでないこともわかる。これらより、図4の学習データの例となる。
図5の学習データの例を説明する。図3の2レコード目の文書を参照すると、単語対a−bが出現する位置の間には、「</td><td>対</td><td>」が存在する。これを形態素解析すると、“</td>”,“<td>”,“対”,“</td>”,“<td>”の5単語に別れ、”</td>”は終了タグや“<td>”は開始タグ、“対”は名詞であるとわかる。文字種は“</td>”はタグ、対は漢字を含んでいる。構文解析を行なうと、aとbには係り受け関係がないことがわかる。また、並立関係もないことがわかる。この二つの単語周辺はタグで囲まれているため自然文中にはないことがわかる。実際にレイアウトすると、テーブルタグであるので、横にそろっており、文字列の大きさも同じであることがわかる。それぞれの単語周辺の文字列は前方「<td>」、後方「</td>」であり同じである。これらより、図5の学習データの例となる。
上述した例は一例であり、他にも、HTMLなどの半構造データの場合、ツリーの深さは同じであるかを含んでも良い。また、単語間の文脈情報とレイアウト情報だけでなく、関連する例にあるように、単語毎の文脈情報を含んでもよい。
このようにして、全ての各単語対の出現位置毎に一つの学習データを作成する。尚、同分類既知単語の単語対の学習データには正例、異分類既知単語の単語対の学習データには負例の情報も付加して学習データを作成する。
次に、パターン作成部12が、学習データ作成部11が作成した学習データに基づいて、単語間パターンを作成する。本実施の形態では、Support Vector Machinesを用いる。Support Vector Machinesは正例と負例とを分離するための単語間パターンを学習する。これによって、単語対の適用データが同じ分類を示すものである場合には正例、単語対の適用データが異なる分類を示すものである場合には負例となる単語間パターンが学習される。
単語間パターン適用部5は、入力部7から分類が未知の単語を入力し、この分類未知単語と対となる分類既知単語と同じ分類であるか否かを出力する。
具体的には、適用データ作成部21が、入力部7から入力された分類未知単語について、分類既知単語群データベース1に記憶されている分類が既知の単語群と文書群データベース2の文書群とを参照し、適用データを作成する。適用データは、分類未知単語fと、分類既知単語a,b,c,d,e,g,hの単語の全ての組合せ(単語対)について、それらの単語対が出現する文書の出現位置毎に学習データを作成する。
例えば、分類未知単語fと、分類既知単語a,b,c,d,e,g,hとのそれぞれの対である、f−a,f−b,f−c,f−d,f−e,f−g,f−hの各単語対について、文書群データベース2に記憶されている文書で単語対の単語が共出現する出現位置毎にそれぞれで適用データを作成する。すなわち、単語対f―aにおいて、文書群内の出現箇所が3箇所であれば、3つの適用データが作成される。ここで、適用データの作成方法は、学習データと同じ方法を用いて行なう。
次に、パターン適用部22が、適用データ作成部21から適用データそれぞれに対して、単語間パターンデータベースに記憶されている単語間パターンを参照し、単語対の適用データ毎に同じ分類であるか否かを出力する。パターン適用部22にSupport Vector Machinesを用いる場合、単語対の適用データ毎にそれぞれについて、正例か負例かを出力する。正例であれば、適用データの単語対は同じ分類であり、負例であれば適用データの単語対は異なる分類である。例えば、単語対f−aの出現箇所(適用データが3つ)が3つである場合、2つは正例、1つは負例であることもある。また、単語対f−bの出現箇所(適用データが4つ)が4つであっても、4つ全てが正例であることもある。
分類判定部6は、パターン適用部22から結果を受け、分類未知単語の分類を判定する。例えば、適用データの正例又は負例の数から得られる、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する。そして、判定結果(分類名)を出力部8に出力する。
分類未知単語の分類の判定の一例を説明する。
各単語対の分類の分類スコアを計算し、ある閾値以上だったもののうち、最も高かった分類に決める。例えば、分類スコアを下記の式で求める。
分類スコア(分類)=正例の単語対の適用データ数(分類)/単語対の全適用データ数(分類)
正例の単語対の適用データ数(分類)は、ある分類既知単語と分類未知単語との単語対の適用データで正例になった数である。また、単語対の全適用データ数(分類)は、分類既知単語と分類未知単語との単語対の全適用データ数である。
例えば、分類Aに属する単語がa,b,cとし、分類未知の単語をfとした場合、単語対f−a,f−b,f−cの全ての適用データの数が、単語対の全適用データ数(分類A)である。また、単語対f−a,f−b,f−cの適用データのうち、正例となった適用データの数が、正例の単語対の適用データ数(分類A)である。
ここで、分類未知単語fを含む単語対の適用データの判定の結果、正例の単語対の適用データ数(分類A)が1、単語対の全適用データ数(分類A)が3、正例の単語対の適用データ数(分類B)が2、単語対の全適用データ数(分類B)が2、正例の単語対の適用データ数(分類C)が0、単語対の全適用データ数(分類C)が2となった場合、分類スコア(分類A)は1/3、分類スコア(分類B)は2/2、分類スコア(分類C)は0/2となる。従って、分類未知単語fの分類は、最も分類スコアが高い分類Bとなる。
上述の分類スコアは一例であり、単純に正例となる適用データの合計など、別の方法でも良い。
分類スコアが閾値以上ではない場合、分類不明とする。
以上の如く、本実施の形態では、単語間パターン学習部が単語毎の文脈情報でなく、同種分類単語や異種分類単語間の単語間の文脈情報やレイアウト情報を用いて分類規則を学習するため、従来手法より詳細に分類することができる。
<第2の実施の形態>
第2の実施の形態を説明する。
図6は第2の実施の形態の単語分類システムのブロック図である。
図6を参照すると、第1の実施の形態と異なる所は、学習データ作成部11が第2の学習データ作成部31に、適用データ作成部21が第2の適用データ作成部41にそれぞれ置き換わっておる点である。以下、異なる点を中心に説明する。
第2の学習データ作成部31は、学習データを、文書に単語対が出現する毎に作成するのではなく、単語対毎に作成する点が異なる。
第2の学習データ作成部31は、文脈情報として単語対の出現頻度や、出現頻度を元に計算できる相互情報量といった統計量をさらに追加する。また、文書で同じ単語対が複数出現する場合、文脈情報として、単語間の文字として多かった文字列、その品詞、文字種、係り受け回数を出現数で割った値、並立関係回数を出現数で割った値、単語間の形態素数平均を用いる。また、レイアウト情報として、自然文に出現する回数を出現数で割った値、縦横でそろっている回数を出現数で割った値、文字列の大きさが同じ回数を出現数で割った値、左右の文字列が同じ回数を出現数で割った値を用いる。これらの方法により、一つの単語対に対して一つの学習データを作成する。
第2の適用データ作成部41は、適用データを、文書に単語対が出現する毎に作成するのではなく、単語対毎に作成する点が異なる。適用データの作成方法は、第2の学習データ作成部31の方法と同様ある。
次に、図6の構成を参照して本実施の形態の全体の動作について説明する。尚、異なる部分である第2の学習データ作成部31と第2の適用データ作成部41とについて主に説明する。
第2の学習データ作成部31は、分類既知単語群データベース1に記憶されている分類既知単語の組である単語対毎に、その単語対の文脈情報及びレイアウト情報から成る学習データを作成する。例えば、図2で示される分類既知単語群である、a,b,c,d,e,g,hの単語の全ての組合せ毎に学習データを作成する。
ここで、単語対a−bの学習データの一例を図7に示す。尚、単語対a−bは、図3に示される文書群データベース2の1レコード目の文書と2レコード目の文書とに出現するものとする。すると、図7に示される単語対a−bの文脈情報は、単語間表層文字列のうち出現頻度の多い3つ、それぞれの品詞、それぞれの単語間文字種、係り受け関係にある文節に存在する回数を出現数で割った値、並立関係にある文節に存在する回数を出現数で割った値、単語間の形態素数の平均、共起回数を示している。図7に示される単語対a−bのレイアウト情報は、自然文内に出現している回数を出現数で割った値、縦横がそろっている回数を出現数で割った値、文字の大きさは同じ回数を出現数で割った値、左右の文字列は同じ回数を出現数で割った値を示している。
これらの学習データは一例であり、係り受け関係や、並立関係、自然文内の出現回数など数を表すものは、一度でも出現していたら1としても良いし、それらを組み合わせても良い。共起出現回数は、相互情報量などの統計量を用いても良い。
そして、第1の実施の形態と同様に、単語対の正例又は負例の情報を付加して、学習データを生成し、この学習データをパターン作成部12に出力する。
第2の適用データ作成部41は、入力部7から分類未知単語を入力し、入力された分類未知単語について、分類既知単語群データベース1に記憶されている分類が既知の単語群と文書群データベース2の文書群とを参照し、適用データを作成する。ここでは、分類未知単語と分類既知単語群データベース1に記憶されているそれぞれの分類既知単語との単語対を作成する。例えば、分類未知単語fが与えられた場合、分類未知単語fと分類既知単語a,b,c,d,e,g,hとから、f−a,f−b,f−c,f−d,f−e,f−g,f−hの単語対を作成する。そして、これら単語対毎に文脈情報及びレイアウト情報から成る適用データを作成する。適用データの作成は、第2の学習データ作成部31を同じ方法を用いる。
他の構成は第1の実施の形態と同様なので、説明は省略する。
本実施の形態では、第2の学習データ作成部が単語間の共起頻度をさらに学習データに加えることができる。
<第3の実施の形態>
第3の実施の形態を説明する。
図8は第3の実施の形態の単語分類システムのブロック図である。
図8を参照すると、第1の実施の形態に比べ、学習データ作成部11が第3の学習データ作成部51に置き換わっている点が異なる。
第1の実施の形態、第2の実施の形態では、正例より負例の学習データ数が多くなるため、単語間パターンを適用するにあたって、分類未知語を入力としてもどの分類の語とも対応が付かず未分類となってしまうことがある。負例の学習データ数が非常に多くなる理由は、異分類既知単語の単語対を全て負例としているためである。
そこで、第3の実施の形態では、異分類既知単語の単語対のうち、特定の条件を満たすもののみを負例として扱うことで、負例の学習データ量を削減する。ここで、特定の条件とは、二語の出現する頻度、または、共起確率、または、相互情報量が高いことである。このような条件を与えることで、負例としての典型例のみを学習データに採用することで、不当に負例が多くなることを抑制する。
以下、異なる点を中心に説明する。
第3の学習データ作成部51は、学習データを全ての単語対で作成するのではなく、異分類の単語対の学習データについては、一定の条件を満たす単語対のみ学習データを作成する。特定の条件とは、単語対の出現頻度、または、共起確率、または、相互情報量が高いことである。学習データの作成方法は、第1または第2の実施の形態と同じである。
具体的に説明すると、第3の学習データ作成部51は、分類既知単語群データベース1の分類既知単語群を入力に、文書群を参照し、分類既知単語の全ての単語対毎に学習データを作成する。学習データは、第1または第2の実施の形態と同様に単語間の文脈情報とレイアウト情報から作成する。例えば、図1に示される分類既知単語群データベース1の分類既知単語群から、a,b,c,d,e,g,hの単語の組合せである単語対を作成し、この単語対毎に学習データを作成する。但し、単語対のうち異分類既知単語の単語対の学習データについては特定の条件を満たす単語対の学習データのみ作成する。
すなわち、同分類の単語対a−b,a−c,d−e,g−hは、第1または第2の実施の形態と同じく学習データを作成する。また、異分類の単語対、a−d,a−e,a−g,a−h,b−d,b−e,b−g,b−h,c−d,c−e,c−g,c−h,d−g,d−h,e−g,e−hのうち、特定の条件を満たす単語対のみ学習データを作成する。ここで、特定の条件とは、単語対の出現頻度、または、共起確率、または、相互情報量が一定の閾値を超えている、または、上位数件の単語対である。閾値や上位数件は、予めシステムに保存しておく。その後、第1または第2の実施の形態における、学習データ作成部11、または、第2の学習データ作成部31と同じく学習データを作成する。
本実施の形態では、第3の学習データ作成部が、典型的な負例のみを学習データに採用することで、不当に負例が増えることを抑制する。これにより分類精度を上げることができる。
尚、上述した第1から第3の実施の形態において、単語間の関係として、文脈情報及びレイアウト情報を用いたが、いずれかの一方のみでも良い。
また、上述した第1から第3の実施の形態において、学習データ作成部、パターン作成部、適用データ作成部及びパターン適用部をハードウェアで構成したが、その一部又は全部をプログラムで動作するCPU等で構成することもできる。
以上の如く、本発明の第1の態様は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習部を有する単語分類システムである。
また、本発明の第2の態様は、上記態様において、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する単語間パターン適用部と、前記単語間パターン適用部の判断結果に基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有する。
また、本発明の第3の態様は、上記態様において、前記単語間パターン学習部は、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部とを有する。
また、本発明の第4の態様は、上記態様において、前記学習データ作成部は、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する。
また、本発明の第5の態様は、上記態様において、前記学習データ作成部は、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する。
また、本発明の第6の態様は、上記態様において、前記学習データ作成部は、同分類既知単語対の学習データを正例の学習データとし、異分類既知単語対の学習データを負例の学習データとする。
また、本発明の第7の態様は、上記態様において、前記学習データ作成部は、異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする。
また、本発明の第8の態様は、上記態様において、前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである。
また、本発明の第9の態様は、上記態様において、前記単語間パターン適用部は、前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成する適用データ作成部と、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断するパターン適用部とを有する。
また、本発明の第10の態様は、上記態様において、前記単語間パターン学習部は、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部とを有する。
また、本発明の第11の態様は、上記態様において、前記パターン適用部は、前記単語対の適用データが正例又は負例であるかを出力する。
また、本発明の第12の態様は、上記態様において、前記単語間パターン作成部は、Support Vector Machinesである。
また、本発明の第13の態様は、上記態様において、前記パターン適用部は、Support Vector Machinesである。
また、本発明の第14の態様は、上記態様において、前記分類判定部は、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する。
本発明の第15の態様は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する単語間パターン学習部と、前記作成された単語間パターンが格納される単語間パターン記憶部と、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを出力する単語間パターン適用部と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する分類判定部とを有する単語分類システムである。
本発明の第16の態様は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成装置であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成部を有する学習データ生成装置である。
本発明の第17の態様は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを、分類未知単語の分類判定に用いる単語分類方法である。
また、本発明の第18の態様は、上記態様において、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断し、前記判断結果に基づいて、前記分類未知単語の分類を判定する。
また、本発明の第19態様は、上記態様において、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する。
また、本発明の第20の態様は、上記態様において、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する。
また、本発明の第21の態様は、上記態様において、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する。
また、本発明の第22の態様は、上記態様において、同分類既知単語対の学習データを正例の学習データとして作成し、異分類既知単語対の学習データを負例の学習データとして作成する。
また、本発明の第23の態様は、上記態様において、異分類単語対の学習データのうち特定の条件を満たす単語対の学習データを負例の学習データとする。
また、本発明の第24の態様は、上記態様において、前記特定の条件は、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである。
また、本発明の第25の態様は、上記態様において、前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する。
また、本発明の第26の態様は、上記態様において、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する。
また、本発明の第27の態様は、上記態様において、前記適用データを解析し、前記単語対の適用データが正例又は負例であるかを出力する。
また、本発明の第28の態様は、上記態様において、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する。
また、本発明の第29の態様は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成し、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別し、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する単語分類方法である。
本発明の第30の態様は、分類が未知である分類未知単語の分類を判定するために用いられる学習データを生成する学習データ生成方法であって、文書で共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれから成る学習データを生成する学習データ生成方法である。
本発明の第31の態様は、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の文脈情報及びレイアウト情報の少なくともいずれかを学習し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン学習処理を情報処理装置に実行させるプログラムである。
本発明の第32の態様は、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成する処理と、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを判断する為の単語間パターンを作成する処理と、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成する処理と、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別する処理と、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する処理とを情報処理装置に実行させるプログラムである。
以上、好ましい実施の形態及び態様をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び態様に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
本出願は、2008年4月3日に出願された日本出願特願2008−97520号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、形態素解析ツールなどのベースとなる辞書の自動分類に適用できる。また、検索システムにおいて同種語の提示による検索ナビゲーションといった用途にも適用可能である。

Claims (26)

  1. 記憶されている文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかである文脈情報及び単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示すレイアウト情報の少なくともいずれかから成る前記分類既知単語の組である単語対の学習データを作成し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを示す単語間パターンを前記学習データに基づいて作成する単語間パターン学習部と、
    入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する単語間パターン適用部と、
    前記単語間パターン適用部の判断結果に基づいて、前記単語対の分類未知単語の分類を判定する分類判定部と
    を有する単語分類システム。
  2. 前記単語間パターン学習部は、
    文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、
    前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部と
    を有する請求項1に記載の単語分類システム。
  3. 前記学習データ作成部は、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する請求項2に記載の単語分類システム。
  4. 前記学習データ作成部は、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する請求項2に記載の単語分類システム。
  5. 前記学習データ作成部は、同分類既知単語対の学習データを正例の学習データとし、異分類既知単語対の学習データを負例の学習データとする請求項2から請求項4のいずれかに記載の単語分類システム。
  6. 前記学習データ作成部は、異分類単語対の学習データのうち、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかであることを満たす単語対の学習データを負例の学習データとする請求項5に記載の単語分類システム。
  7. 前記単語間パターン適用部は、
    前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成する適用データ作成部と、
    前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断するパターン適用部と
    を有する請求項1に記載の単語分類システム。
  8. 前記単語間パターン学習部は、
    文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成する学習データ作成部と、
    前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する単語間パターン作成部と
    を有する請求項7に記載の単語分類システム。
  9. 前記パターン適用部は、前記単語対の適用データが正例又は負例であるかを出力する請求項7又は請求項8に記載の単語分類システム。
  10. 前記単語間パターン作成部は、Support Vector Machinesである請求項2から請求項6、又は、請求項8のいずれかに記載の単語分類システム。
  11. 前記パターン適用部は、Support Vector Machinesである請求項7から請求項9のいずれかに記載の単語分類システム。
  12. 前記分類判定部は、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する請求項1、又は、請求項7から請求項11のいずれかに記載の単語分類システム。
  13. 文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを示す単語間パターンを作成する単語間パターン学習部と、
    前記作成された単語間パターンが格納される単語間パターン記憶部と、
    入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを出力する単語間パターン適用部と、
    前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する分類判定部と
    を有し、
    前記文脈情報は単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかであり、前記レイアウト情報は単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示す
    単語分類システム。
  14. 単語間パターン学習部が、記憶されている文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかである文脈情報及び単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示すレイアウト情報の少なくともいずれかから成る前記分類既知単語の組である単語対の学習データを作成し、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを示す単語間パターンを作成し、
    適用データ作成部が、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、
    分類判定部が、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断し、
    前記判断結果に基づいて、前記分類未知単語の分類を判定する
    単語分類方法。
  15. 前記単語間パターン学習部が、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、
    前記単語間パターン学習部が、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する
    請求項14に記載の単語分類方法。
  16. 前記学習データ作成部が、同分類既知単語対又は異分類既知単語対が共出現する文書の出現位置毎に学習データを作成する請求項15に記載の単語分類方法。
  17. 前記学習データ作成部が、同分類既知単語対毎、又は異分類既知単語対毎に学習データを作成する請求項15に記載の単語分類方法。
  18. 前記学習データ作成部が、同分類既知単語対の学習データを正例の学習データとして作成し、異分類既知単語対の学習データを負例の学習データとして作成する請求項15から請求項17のいずれかに記載の単語分類方法。
  19. 前記学習データ作成部が、異分類単語対の学習データのうち、単語間の共出現頻度が所定の値よりも高いこと、共起確率が所定の値よりも高いこと、又は相互情報量が所定の値よりも高いことのいずれかである特定の条件を満たす単語対の学習データを負例の学習データとする請求項18に記載の単語分類方法。
  20. 適用データ作成部が、前記分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報の少なくともいずれから成る適用データを作成し、
    パターン適用部が、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する
    請求項14に記載の単語分類方法。
  21. 前記単語間パターン学習部が、文書で共出現する同分類単語間の関係をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データと、文書で共出現する異分類既知単語間の関係をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報の少なくともいずれから成る学習データとを作成し、
    前記単語間パターン学習部が、前記学習データに基づいて、入力された分類未知単語を含む単語対のデータが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する為の単語間パターンを作成する
    請求項20に記載の単語分類方法。
  22. 前記パターン適用部が、前記適用データを解析し、前記単語対の適用データが正例又は負例であるかを出力する請求項20又は請求項21に記載の単語分類方法。
  23. 前記分類判定部が、分類未知単語と分類既知単語との単語対が同分類単語の単語対である確率に基づいて、分類未知単語の分類を判定する請求項14、又は、請求項20から請求項22のいずれかに記載の単語分類方法。
  24. 単語間パターン学習部が、文書で共出現する同分類既知単語間の文脈情報及びレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成し、
    単語間パターン学習部が、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを示す単語間パターンを作成し、
    単語間パターン適用部が、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別し、
    分類判定部が、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定し、
    前記文脈情報は単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかであり、前記レイアウト情報は単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示す
    単語分類方法。
  25. 単語間パターン学習部が、文書で共出現する分類既知単語間の関係をもとに、共出現する分類既知単語間の単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかである文脈情報及び単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示すレイアウト情報の少なくともいずれかに基づいて、単語の組である単語対のデータが、同分類単語の組である同分類単語対のデータなのか、異分類単語の組である異分類単語対のデータなのかを示す単語間パターンを作成する単語間パターン学習処理と、
    適用データ作成部が、入力された分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と分類既知単語との間の文脈情報及びレイアウト情報の少なくともいずれから成る前記分類未知単語と前記分類既知単語との組である単語対の適用データを生成し、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが、同分類単語対のデータなのか、異分類単語対のデータなのかを判断する単語間パターン適用処理と、
    分類判定部が、前記判断結果に基づいて、前記分類未知単語の分類を判定する単語間パターン学習処理
    を情報処理装置に実行させるプログラム。
  26. 単語間パターン学習部が、記憶されている文書で共出現する同分類既知単語間の単語間表層文字列、単語間品詞、単語間文字種、及び単語間の形態素数のいずれかである文脈情報及び単語間の縦又は横の並び位置、単語間の文字の大きさ、及び構造化文書における木構造の深さのいずれかを示すレイアウト情報をもとに、その同分類既知単語の組である同分類既知単語対の文脈情報及びレイアウト情報から成る正例の学習データと、文書で共出現する異分類既知単語間の文脈情報及びレイアウト情報をもとに、その異分類既知単語の組である異分類既知単語対の文脈情報及びレイアウト情報から成る負例の学習データとを作成する処理と、
    単語間パターン学習部が、前記学習データに基づいて、入力された分類未知単語と分類既知単語との組である単語対のデータが正例であるか負例であるかを示す単語間パターンを作成する処理と、
    適用データ作成部が、分類未知単語と文書で共出現する分類既知単語との関係をもとに、前記分類未知単語と前記分類既知単語との組である単語対の文脈情報及びレイアウト情報から成る適用データを作成する処理と、
    単語間パターン適用部が、前記単語間パターンを参照して前記単語対の適用データを解析し、前記単語対の適用データが正例であるか負例であるかを判別する処理と、
    分類判定部が、前記単語対の適用データの正例又は負例の数と、前記単語対の分類既知単語の分類とに基づいて、前記単語対の分類未知単語の分類を判定する処理と
    を情報処理装置に実行させるプログラム。
JP2010505983A 2008-04-03 2009-04-02 単語分類システム、方法およびプログラム Expired - Fee Related JP5447862B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010505983A JP5447862B2 (ja) 2008-04-03 2009-04-02 単語分類システム、方法およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008097520 2008-04-03
JP2008097520 2008-04-03
JP2010505983A JP5447862B2 (ja) 2008-04-03 2009-04-02 単語分類システム、方法およびプログラム
PCT/JP2009/056900 WO2009123288A1 (ja) 2008-04-03 2009-04-02 単語分類システム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2009123288A1 JPWO2009123288A1 (ja) 2011-07-28
JP5447862B2 true JP5447862B2 (ja) 2014-03-19

Family

ID=41135655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010505983A Expired - Fee Related JP5447862B2 (ja) 2008-04-03 2009-04-02 単語分類システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US8504356B2 (ja)
JP (1) JP5447862B2 (ja)
WO (1) WO2009123288A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5405507B2 (ja) * 2011-02-17 2014-02-05 日本電信電話株式会社 具体主題の有無判定装置、方法、及びプログラム
JP5419906B2 (ja) * 2011-02-17 2014-02-19 日本電信電話株式会社 主題抽出装置、方法、及びプログラム
US10339214B2 (en) * 2011-11-04 2019-07-02 International Business Machines Corporation Structured term recognition
KR101508059B1 (ko) * 2013-06-26 2015-04-07 숭실대학교산학협력단 단어의 쾌-불쾌 지수 예측 장치 및 방법
US20150309987A1 (en) 2014-04-29 2015-10-29 Google Inc. Classification of Offensive Words
KR101567789B1 (ko) * 2014-08-26 2015-11-11 숭실대학교산학협력단 상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법
US9529898B2 (en) * 2014-08-26 2016-12-27 Google Inc. Clustering classes in language modeling
JP2017134693A (ja) * 2016-01-28 2017-08-03 富士通株式会社 意味情報登録支援プログラム、情報処理装置および意味情報登録支援方法
JP2018010532A (ja) * 2016-07-14 2018-01-18 株式会社レトリバ 情報処理装置、プログラム及び情報処理方法
JP6729232B2 (ja) * 2016-09-20 2020-07-22 富士通株式会社 メッセージ振り分けプログラム、メッセージ振り分け装置、およびメッセージ振り分け方法
US11270082B2 (en) 2018-08-20 2022-03-08 Verint Americas Inc. Hybrid natural language understanding
US11217226B2 (en) * 2018-10-30 2022-01-04 Verint Americas Inc. System to detect and reduce understanding bias in intelligent virtual assistants
WO2020144736A1 (ja) * 2019-01-08 2020-07-16 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
US11604927B2 (en) 2019-03-07 2023-03-14 Verint Americas Inc. System and method for adapting sentiment analysis to user profiles to reduce bias
EP3980989A1 (en) 2019-06-06 2022-04-13 Verint Americas Inc. Automated conversation review to surface virtual assistant misunderstandings

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147307A (ja) * 1994-11-22 1996-06-07 Gijutsu Kenkyu Kumiai Shinjoho Shiyori Kaihatsu Kiko 意味知識獲得装置
JP2007004458A (ja) * 2005-06-23 2007-01-11 National Institute Of Information & Communication Technology 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US7299180B2 (en) * 2002-12-10 2007-11-20 International Business Machines Corporation Name entity extraction using language models
JP3847273B2 (ja) 2003-05-12 2006-11-22 沖電気工業株式会社 単語分類装置、単語分類方法及び単語分類プログラム
US20110246076A1 (en) * 2004-05-28 2011-10-06 Agency For Science, Technology And Research Method and System for Word Sequence Processing
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US9135238B2 (en) * 2006-03-31 2015-09-15 Google Inc. Disambiguation of named entities
CN101075228B (zh) * 2006-05-15 2012-05-23 松下电器产业株式会社 识别自然语言中的命名实体的方法和装置
US20080052262A1 (en) * 2006-08-22 2008-02-28 Serhiy Kosinov Method for personalized named entity recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147307A (ja) * 1994-11-22 1996-06-07 Gijutsu Kenkyu Kumiai Shinjoho Shiyori Kaihatsu Kiko 意味知識獲得装置
JP2007004458A (ja) * 2005-06-23 2007-01-11 National Institute Of Information & Communication Technology 二項関係抽出装置,二項関係抽出処理を用いた情報検索装置,二項関係抽出処理方法,二項関係抽出処理を用いた情報検索処理方法,二項関係抽出処理プログラム,および二項関係抽出処理を用いた情報検索処理プログラム

Also Published As

Publication number Publication date
US20110029303A1 (en) 2011-02-03
WO2009123288A1 (ja) 2009-10-08
JPWO2009123288A1 (ja) 2011-07-28
US8504356B2 (en) 2013-08-06

Similar Documents

Publication Publication Date Title
JP5447862B2 (ja) 単語分類システム、方法およびプログラム
Malheiro et al. Emotionally-relevant features for classification and regression of music lyrics
US7877383B2 (en) Ranking and accessing definitions of terms
JP5008024B2 (ja) 風評情報抽出装置及び風評情報抽出方法
JP6466952B2 (ja) 文章生成システム
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
Tschuggnall et al. Enhancing authorship attribution by utilizing syntax tree profiles
JP2007047974A (ja) 情報抽出装置および情報抽出方法
Graovac et al. NgramSPD: Exploring optimal n-gram model for sentiment polarity detection in different languages
El Bakly et al. Using ontology for revealing authorship attribution of Arabic text
Jha et al. Hsas: Hindi subjectivity analysis system
CN111259661B (zh) 一种基于商品评论的新情感词提取方法
JP4005343B2 (ja) 情報検索システム
JP6689466B1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Hellwig Morphological disambiguation of classical Sanskrit
Batanović et al. Sentiment classification of documents in Serbian: The effects of morphological normalization
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
JP2007122525A (ja) 言い換え処理方法及び装置
Kyjánek et al. Constructing a lexical resource of Russian derivational morphology
Pinzhakova et al. Feature Similarity-based Regression Models for Authorship Verification.
Manjula Identification of languages from the text document using natural language processing system
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
JP4341077B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131217

R150 Certificate of patent or registration of utility model

Ref document number: 5447862

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees