JP5106042B2 - 文書関連性分析装置、方法及びプログラム - Google Patents
文書関連性分析装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5106042B2 JP5106042B2 JP2007279066A JP2007279066A JP5106042B2 JP 5106042 B2 JP5106042 B2 JP 5106042B2 JP 2007279066 A JP2007279066 A JP 2007279066A JP 2007279066 A JP2007279066 A JP 2007279066A JP 5106042 B2 JP5106042 B2 JP 5106042B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- partial character
- common partial
- common
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
例えば、非特許文献1に記載された技術では、文書から単語の抽出には、日本語形態要素解析(日本語の文法と辞書を用いてテキストを言語で意味を持つ最小単位である形態素に分割し、品詞の判別をする処理)を用いる。また、文書の特徴語を抽出する場合にも、日本語形態素解析を用いて、必要に応じて単語を連結している。
他に、文書に出現する固有表現を基に文書を関連づける技術が存在する。以下の技術は人名を固有表現として使用する。非特許文献2に記載された技術では、あらかじめ日本語形態素解析を用いて文書の集合から人名を抽出する。また、非特許文献3に記載された技術では、解析する文書とは別に与えられた人名リストを用いている。
松尾真編、自然言語処理、「岩波講座ソフトウェア科学15」、岩波書店、1996、2.1節「言語の統計」、3章「形態素解析」、11章「情報の構造化と検索」 原田昌紀、佐藤進也、風間一洋、Web上のキーパーソンの発見と関係の可視化、「情報処理学会研究報告書」、情報処理学会、2003、17−24 松田豊、友部博教、橋田浩一、中島秀之、石塚満、Web上の情報からの人物関係ネットワークの抽出、「人口知能学会論文誌」、人口知能学会、2005、Vol.20、No.1、46−56
また、既存の特徴語抽出では日本語形態素解析技術を用いており、辞書登録の有無や使用する文法に依存するために新語や口語文章に弱く、また長い複合語やフレーズを扱うには不適切である、という問題がある。
本発明は上記の点に鑑みてなされたものであり、その目的は、日本語形態素解析や辞書を用いなくても、引用文や多用される複合語などの長い文字列に基づいて文書間の関連づけを行うことができる文書関連性分析装置、方法及びプログラムを提供することにある。
図1は、本発明の一実施形態による文書関連性分析装置1の構成図である。
文書関連性分析装置1は、前処理部11と、共通部分文字列発見部12と、部分文字列変換データベース作成部13と、文書関連づけ部14と、文書データを保持しているハードディスク15と、共通部分文字列DB16A及び文字列変換DB16Bを記憶するメモリ17と、を含んで構成される。文書関連性分析装置1は、複数の文書データから各文書データに共通する文字列を抽出し、共通する文字列に基づいた文書間の関連づけを行う。
次に、共通部分文字列発見部12は、ステップS113からS115の処理で位置リストPとa[i][j]から、得られた共通部分文字列のリストLを作成する。
部分文字列変換データベース作成部13は、まず、共通部分文字列DB16Aから共通部分文字列のリストL1を作成する(ステップS201)。具体的には、部分文字列変換データベース作成部13は、共通部分文字列DB16Aのキーとなる共通部分文字列をリストL1に順次追加する。例えば、キーが「abcdexyz」であるレコードと、「abcdefdg」であるレコードと、「hijklm」であるレコードと、が共通部分文字列DB16Aに格納されていた場合には、「abcdexyz」と、「abcdefdg」と、「hijklm」と、が含まれるリストL1が生成される。
このようにして部分文字列変換データベース作成部13は、文字変換DB16Bを作成する。
文書関連づけ部14は、まず、共通部分文字列DB16Aが空か否か(下記に示す処理を全てのレコードについて行ったか)を判定する(ステップS301)。文書関連づけ部14は、共通部分文字列DB16Aが空の場合には、処理を終了し、そうでない場合には、キーとなっている共通部分文字列s21を取り出す(ステップS302)。次に、文書関連づけ部14は、s21に文字列変換DB16Bを繰り返し適用して、文字列s22を得る(ステップS303)。ここで、例えば、文字列変換DB16Bに、キーがs21(例えば、「abcdefg」)、値が「abcde」のレコードが存在した場合、s22は、「abcde」になる。また、文字列変換DB16Bに、キーが「abcde」、値が「abcd」のレコードが更に存在した場合には、s22は、「abcd」となる。
このようにして、文書関連づけ部14は、文書の関連づけを行う。
この図に示される斜線で示されたノードは文書データであり、その横の数字は文書番号である。また、白いノードは抽出された共通部分文字列を示し、その横に共通部分文字列が表示されている。互いに関係がある文書データのノードと共通部分文字列のノードはエッジで接続されている。この図に示す画面では、例えば、共通部分文字列「会社員、○山△男容疑者(30)」を含む文書データは、224,262,207であり、文書データ207は、共通部分文字列「○○市の××△△施設」を共に含む。なお、この図において、文字数が17文字以上の共通部分文字列は、省略して示されている。例えば、図中の「××○○事務長、□田○子・・・[20]」は、抽出された共通部分文字列の文字数は20文字だが、「××○○事務長、□田○子」より後の文字は「・・・」で省略されている。ここで、「[20]」は、この共通部分文字列の文字数である。また、図中の「群馬県六合村(くにむら)・・・[17]」についても同様である。
また、共通部分文字列を最大共通部分文字列に変換して文書データと関連づけているため、単に句読点や送り仮名の有無だけが違う文字列や、ある共通部分文字列の一部に含まれる文字列や、一部を共通する共通部分文字列を一つの最大共通部分文字列として統一して文書データと関連づけすることができる。これにより、日本語形態素解析を用いなくても、文書の関連の根拠として妥当な文字列を示すことができる。つまり、文書の関連に妥当な見出し語、及び文書の集合でよく用いられているフレーズを容易に抽出できる。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
例えば、前処理部11にてファイルを読み込む際に、改行文字や文字下げ部分の削除などを行ってもよい。これにより、改行の有無・改行位置の違い・文字下げなどの文章とは無関係な書式情報を取り除くことができる。
また、共通部分文字列発見部12及び部分文字列変換データベース作成部13において、文字列長を比較する前に、共通部分文字列の両端の空白、孤立非開始・非終端括弧(例えば、先頭の「)」、末尾の「(」など)、部分文字列を囲む括弧(例えば「(文字列)」)を削除してもよい。この理由は、これらは文章を読みやすくするための記号類であるだけでなく、共通部分文字列に付いたり、付かなかったりして、処理の妨げになり易いからである。
また、文書関連づけ部14において、ストップワード(処理の対象にしない単語)を含む共通部分文字列を取り除く処理を行ってもよい。例えば、新聞記事データ中には、「社会面に関連記事」のように記事の内容とは関係ないフレーズが多く出現するが、このようなフレーズを多数抽出するのを回避するためである。
また、現実の文書データの集合には、文書の複製が存在することが多く、複製が存在すると相互に関連づけられてしまう。また、文書の出現頻度が低い場合には、共通部分文字列発見部12における共通部分文字列の抽出結果が必ずしも妥当ではないことがある。この問題を解決するため、文書関連づけ部14において、文書の類似度が非常に高い文書対や、抽出された共通部分文字列の出現文書数(document frequency)が非常に低いものを除外してもよい。この処理によって文書関連づけ処理の精度を向上することができる。
また、図3、図4、図5に示したフローチャートは、高速化や並列化に対応したアルゴリズムに書き換えてもよい。
なお、本実施形態の実施例は、例えば、Webページ(例えば、個人のウェブログやホームページなど)をカテゴリー分類して自動的にリンク集を作成する装置や、Webページと関連性の高い広告を抽出して自動的にその広告をそのWebページに表示する装置などに応用することができる。
Claims (5)
- 複数の入力された文書データの各々の組み合わせについて、所定の長さ以上の共通部分文字列を抽出し、抽出した共通部分文字列と抽出元の文書データを関連付け、抽出した共通部分文字列をキーとして、抽出元の文書データ群を共通部分文字列データベースに格納する共通部分文字列発見部と、
前記共通部分文字列データベースに格納された前記共通部分文字列の各々の組み合わせについて、複数の共通部分文字列の中に共通に含まれる文字列のうち最も文字数が多い文字列である最大共通部分文字列を抽出し、抽出された前記最大共通部分文字列の長さが前記所定の長さ以上であれば、当該共通部分文字列と当該最大共通部分文字列を関連付け、変換元の共通部分文字列をキーとして、変換先の最大共通部分文字列を文字列変換部データベースに格納する部分文字列変換データベース作成部と、
前記共通部分文字列データベースに格納された前記共通部分文字列をキーとして、前記文字列変換部データベースに格納された当該共通部分文字列に関連づけられた最大共通文字列と、前記共通部分文字列データベースに格納された当該共通部分文字列に関連づけられた文書データ群とを関連付け、前記文字列変換部データベースに格納された前記最大共通部分文字列をキーとして、当該最大共通部分文字列に関連付けられた文書データ群を結果データベースに格納する文書関連づけ部と、
を有することを特徴とする文書関連性分析装置。 - 入力された文書データに含まれるテキスト情報を抽出し、テキストファイル形式の文書データに変換する前処理部を有することを特徴とする請求項1に記載の文書関連性分析装置。
- 共通部分文字列発見部と、部分文字列変換データベース作成部と、文書関連づけ部を備える文書関連性分析装置が行う文書関連性分析方法であって、
前記共通部分文字列発見部が、複数の入力された文書データの各々の組み合わせについて、所定の長さ以上の共通部分文字列を抽出し、抽出した共通部分文字列と抽出元の文書データを関連付け、抽出した共通部分文字列をキーとして、抽出元の文書データ群を共通部分文字列データベースに格納する共通部分文字列発見ステップと、
前記部分文字列変換データベース作成部が、前記共通部分文字列データベースに格納された前記共通部分文字列の各々の組み合わせについて、複数の共通部分文字列の中に共通に含まれる文字列のうち最も文字数が多い文字列である最大共通部分文字列を抽出し、抽出された前記最大共通部分文字列の長さが前記所定の長さ以上であれば、当該共通部分文字列と当該最大共通部分文字列を関連付け、変換元の共通部分文字列をキーとして、変換先の最大共通部分文字列を文字列変換部データベースに格納する部分文字列変換データベース作成ステップと、
前記文書関連づけ部が、前記共通部分文字列データベースに格納された前記共通部分文字列をキーとして、前記文字列変換部データベースに格納された当該共通部分文字列に関連づけられた最大共通文字列と、前記共通部分文字列データベースに格納された当該共通部分文字列に関連づけられた文書データ群とを関連付け、前記文字列変換部データベースに格納された前記最大共通部分文字列をキーとして、当該最大共通部分文字列に関連付けられた文書データ群を結果データベースに格納する文書関連づけステップと、
を有することを特徴とする文書関連性分析方法。 - 入力された文書データに含まれるテキスト情報を抽出し、テキストファイル形式の文書データに変換する前処理ステップを有することを特徴とする請求項3に記載の文書関連性分析方法。
- コンピュータを、請求項1に記載の文書関連性分析装置として機能させるための文書関連性分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007279066A JP5106042B2 (ja) | 2007-10-26 | 2007-10-26 | 文書関連性分析装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007279066A JP5106042B2 (ja) | 2007-10-26 | 2007-10-26 | 文書関連性分析装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009110081A JP2009110081A (ja) | 2009-05-21 |
JP5106042B2 true JP5106042B2 (ja) | 2012-12-26 |
Family
ID=40778543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007279066A Expired - Fee Related JP5106042B2 (ja) | 2007-10-26 | 2007-10-26 | 文書関連性分析装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5106042B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5184583B2 (ja) * | 2010-06-17 | 2013-04-17 | ヤフー株式会社 | 文字列長を伸縮可能なタグクラウド構成装置及び方法 |
WO2012124301A1 (ja) * | 2011-03-16 | 2012-09-20 | 日本電気株式会社 | 関連仕様対応付けシステム、関連仕様対応付け方法およびプログラム |
JP5644607B2 (ja) * | 2011-03-17 | 2014-12-24 | 富士通株式会社 | 情報提供プログラム、情報提供装置および情報提供方法 |
JP5470473B2 (ja) * | 2013-01-16 | 2014-04-16 | ヤフー株式会社 | 文字列長を伸縮可能なタグクラウド構成装置及び方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230006A (ja) * | 2000-11-28 | 2002-08-16 | Sadanobu Takane | 自由記述回答の解析法、自由記述文書からのキーワード抽出法、および自由記述文書の解析支援法 |
-
2007
- 2007-10-26 JP JP2007279066A patent/JP5106042B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009110081A (ja) | 2009-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7346487B2 (en) | Method and apparatus for identifying translations | |
US7890500B2 (en) | Systems and methods for using and constructing user-interest sensitive indicators of search results | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
WO2008023470A1 (fr) | Procédé de recherche de phrase, moteur de recherche de phrase, programme informatique, support d'enregistrement et stockage de document | |
US7284006B2 (en) | Method and apparatus for browsing document content | |
US20090307183A1 (en) | System and Method for Transmission of Communications by Unique Definition Identifiers | |
US8296319B2 (en) | Information retrieving apparatus, information retrieving method, information retrieving program, and recording medium on which information retrieving program is recorded | |
JP5106042B2 (ja) | 文書関連性分析装置、方法及びプログラム | |
JP2006251843A (ja) | 同義語対抽出装置及びそのためのコンピュータプログラム | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
US7827029B2 (en) | Systems and methods for user-interest sensitive note-taking | |
JP4447345B2 (ja) | 類似特許明細書検索システム及びその方法並びにプログラム | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2004157931A (ja) | 意図文型種別抽出方式 | |
JP3855058B2 (ja) | 言い換えを利用した文章作成支援処理装置および方法 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
CN111159405A (zh) | 基于背景知识的讽刺检测方法 | |
JP2007164462A (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
JP6373198B2 (ja) | テキスト変換装置、方法、及びプログラム | |
JP2003099429A (ja) | 用語集生成装置及び用語集生成プログラム並びに用語集検索装置 | |
Karthikeya et al. | Deep Learning Aided Digitization of Indian Music Treatises | |
Keerthika et al. | Multi-linguistic optical character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120306 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120925 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121002 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151012 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |