JP4525154B2 - 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム - Google Patents
情報処理システム及び情報処理方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP4525154B2 JP4525154B2 JP2004124919A JP2004124919A JP4525154B2 JP 4525154 B2 JP4525154 B2 JP 4525154B2 JP 2004124919 A JP2004124919 A JP 2004124919A JP 2004124919 A JP2004124919 A JP 2004124919A JP 4525154 B2 JP4525154 B2 JP 4525154B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- context
- words
- document
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
図1には、シソーラスを自動構築するための処理手順を模式的に示している。図示の通り、シソーラスの自動構築は、大まかに以下の手順により構成される。
[ステップ2]ソース・データを解析し、文脈を抽出
[ステップ3]語が利用される文脈を示す「語−文脈行列」又は「共起度行列」を構築
[ステップ4]語間の類似度を示す「類似度行列」を構築
[ステップ5]類似度行列を精練させ「概念行列」を構築
[ステップ6]概念行列をシソーラスの形式で書き出し
シソーラス自動構築の技術では、語の共起関係に基づいて関連する語を収集することが多い。ここで、共起の粒度をどのように設定するかという問題がある。異なる語が共起しているとみなす単位ブロック(共起ウィンドウ)のサイズをどのように設定するかという問題である。
●文、段落、節、章、文書という文章構造上のセグメント
●文字数、単語数、機能語数という文字や形態素の形式的な幅
●文書間の関連性に基づく文書グループ
図4に示すように、4種類の異なる文脈から構築された4つの語ー文脈行列があるとする。それぞれの行列をA1、A2、A3、A4とし、列の数(文脈のサイズ)をm1、m2、m3、m4とする。さらには、個々の文脈には重み係数α1からα4が与えられているものとする。これは、どの文脈集合をどれくらい重視するかを示す係数である。
共起度行列の場合も基本的な方式は語−文脈行列の場合に似ている。図10には、異なる文脈から構築された4つの共起度行列を示している。図示のように、共起度行列においては、行、列ともに語に対応する正方行列となり、行列要素には2つの語の個々の文脈内での共起数が記述される。
文書は社会的産物である。文書がどのような人にどのような状況で作成され、どのような場所で利用されたか、どのような経路で流通されたか、などといった文書に付随する属性情報はどれも、文書の持つ社会的文脈の1つである。換言すれば、文書が持つ属性は文書に出現する語の文脈すなわち社会的文脈であるとも言える。
前節Cでは、文書に与えられるさまざまな属性の利用を検討したが、中でも属性値として言語情報が与えられることも少なくない。ここでは、それを効果的に活用することを考える。
●文書の属すフォルダ名、パス名
●文書のタイトル
●文書のキーワード
●文書の利用目的
●文書で引用している他の文書の書誌情報
情報検索の技術領域では、文脈における語の重みを算出する際、文脈を特定付ける程度を示す「特定性(specificity)」と、文脈を漏れなく抽出する「網羅性(exhaustivity)」の重要性が指摘されている。ちなみに、前者が検索の「精度(precision)」の向上に関わる指標で、後者が「再現率(recall)」に関わる指標である。
個人のメモや日記、電子メールのような文章は、個人や特定の組織内でのみ通用する造語や略語、専門用語が利用されることがある。このような単語は形態素解析の辞書に登録されていないため抽出されることはない。しかし、このような個人的な語や専門用語にこそ、個人や組織の特徴が表現されており、個人シソーラス構築の観点からは抽出が欠かせないものである。ここでは、このような個人的な語や分野に依存した専門用語を取得するための方式について説明する。
Claims (22)
- 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、
文書集合から語を抽出する語抽出手段と、
文書集合から複数の種類の文脈を抽出する文脈抽出手段と、
前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段と、
語の各文脈に対する重みを基に、同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段と、
算出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段と、
を具備することを特徴とする情報処理システム。 - 前記類似度算出手段は、語の各文脈での重みを要素とする文脈ベクトルを生成し、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する、
ことを特徴とする請求項1に記載の情報処理システム。 - 前記類似度算出手段は、語の各種類の文脈での重みを要素とする文脈ベクトルを生成する、
ことを特徴とする請求項2に記載の情報処理システム。 - 前記類似度算出手段は、個々の文脈毎に、語の各文脈での重みを要素とするベクトルを生成し、
文脈毎の語間の類似度を統合して統合的類似度を算出する類似度統合手段をさらに備え、
前記関連語収集手段は、統合的類似度に基づいて個々の語について関連度の高い語を関連語として収集する、
ことを特徴とする請求項2に記載の情報処理システム。 - 前記類似度算出手段は、前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された各文脈での出現数を基に出現確率を算出し、同種類の文脈内での前記出現確率に基づいて語の類似度を算出して、文脈毎の語間の類似度を統合して統合的類似度を算出する、
ことを特徴とする請求項1に記載の情報処理システム。 - 前記類似度算出手段は、各語の各文脈における出現頻度に基づいて算出された重みを表現した行列AとAの転置行列を掛け合わせたものの対応する要素からなる共起度を類似度として算出する、
ことを特徴とする請求項1に記載の情報処理システム。 - 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、
文書集合から語を抽出する語抽出手段と、
文書集合から複数の種類の文脈を抽出する文脈抽出手段と、
前記語抽出手段によって抽出された各語について、前記文脈抽出手段によって抽出された文脈内での異なる語間の共起する数を算出する共起数算出手段と、
各文脈での共起する数に基づいて対応する語間の類似度を算出する類似度算出手段と、
算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段と、
を具備することを特徴とする情報処理システム。 - 前記語抽出手段により抽出された各語について異なる語との共起する数を要素とする文脈ベクトルを生成するベクトル生成手段をさらに備え、
前記類似度算出手段は、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する、
ことを特徴とする請求項7に記載の情報処理システム。 - 前記類似度算出手段は、各語の各文脈において算出された重みを表現した行列AとAの転置行列を掛け合わせたものの対応する要素からなる共起度を類似度として算出する、
ことを特徴とする請求項7に記載の情報処理システム。 - 文書の属性情報に基づいて、文書を複数のグループに分類する文書分類手段をさらに備え、
前記文脈抽出手段は、グループを文脈の1つとして文脈の抽出を行なう、
ことを特徴とする請求項1乃至7のいずれかに記載の情報処理システム。 - 前記文書分類手段は、文書が持つ社会的文脈を文書の属性情報として文書の各グループへの分類を行なう、
ことを特徴とする請求項10に記載の情報処理システム。 - 前記文書分類手段は、文書の置き場所、文書に付随する日時、ファイル・タイプ、文書を作成した人、文書を共有した人、文書を作成し又は共有した人が所属する組織図、文書を利用した場所、文書の利用目的、文書のタイトル、文書の検索に利用するキーワード、文書の分類キーワード、文書の提出先、文書の執筆者又は共著者、文書間の引用関係、文書の入手場所又は入手方法、文書を作成し変更し又は参照した前後に生じたイベントのうち少なくとも1つを文書の属性情報として文書の各グループへの分類を行なう、
ことを特徴とする請求項10に記載の情報処理システム。 - 前記重み算出手段は、ある文脈のメタ言語情報に出現する語についての当該文脈における重みを調整する、
ことを特徴とする請求項1に記載の情報処理システム。 - 前記重み算出手段は、文書のファイル名に利用されている語、文書が属するフォルダのフォルダ名に出現する語、文書のタイトルに出現する語、文書のキーワードに出現する語、文書の提出先に出現する語、文書の引用文献に出現する語、文書の入手場所に出現する語のうち少なくとも1つについての文脈に対する重みを調整する、
ことを特徴とする請求項13に記載の情報処理システム。 - 特定の個人や組織によらない一般の文書の集合からなる一般文書集合から語を抽出する一般語抽出手段と、
抽出された一般語の前記一般文書集合における文脈頻度を算出する一般語文脈頻度算出手段と、
をさらに備え、
前記重み算出手段は、前記語抽出手段により抽出された各語について、前記一般文書集合で語が出現する文脈の数(文脈頻度)に反比例する重みを算出する、
ことを特徴とする請求項1に記載の情報処理システム。 - 前記重み算出手段は、抽出された各語について前記第1の文書集合中の文脈での出現頻度に比例する第1の重みを算出するとともに、抽出された各語について第2の文書集合で出現する文脈の数(文脈頻度)に反比例する第2の重みを算出し、各語についての第1の重みと第2の重みを統合して文脈に対する重みとする、
ことを特徴とする請求項1に記載の情報処理システム。 - 前記重み算出手段は、抽出された各語について特定の個人や組織による個人文書集合中の文脈での出現頻度に比例する重みTFを算出するとともに、抽出された各語について特定の個人や組織によらない一般文書集合で出現する文脈の数(文脈頻度)に反比例する重みIDFを算出し、各語についての重みTFとIDFを統合して文脈に対する重みとする、
ことを特徴とする請求項1に記載の情報処理システム。 - 語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成手段をさらに備え、
前記類似度算出手段は、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する、
ことを特徴とする請求項17に記載の情報処理システム。 - 文書集合として日本語文書を扱うとともに、日本語入力のかな漢字変換辞書を備え、
前記語抽出手段は、前記かな漢字変換辞書に登録された語も抽出する、
ことを特徴とする請求項1、5、17のいずれかに記載の情報処理システム。 - 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
文書集合から語を抽出する語抽出手段、
文書集合から複数の種類の文脈を抽出する文脈抽出手段、
前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段、
語の各文脈に対する重みを基に、同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段、
算出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段、
として機能させるためのコンピュータ・プログラム。 - 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
文書集合から語を抽出する語抽出手段、
文書集合から複数の種類の文脈を抽出する文脈抽出手段、
前記語抽出手段において抽出された各語について、前記文脈抽出手段において抽出された文脈内での異なる語間の共起する数を算出する共起数算出手段、
各文脈での共起する数に基づいて対応する語間の類似度を算出する類似度算出手段、
算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段と、
として機能させるためのコンピュータ・プログラム。 - 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
文書集合から語を抽出する語抽出手段、
文書集合から複数の種類の文脈を抽出する文脈抽出手段、
前記語抽出手段により抽出された各語について、特定の個人や組織による個人文書集合中の文脈での出現頻度に比例する重みTFを算出するとともに、抽出された各語について特定の個人や組織によらない一般文書集合で出現する文脈の数(文脈頻度)に反比例する重みIDFを算出し、各語についての重みTFとIDFを統合して文脈に対する重みとする重み算出手段、
語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成手段、
文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出して、同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段、
算出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段、
として機能させるためのコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004124919A JP4525154B2 (ja) | 2004-04-21 | 2004-04-21 | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004124919A JP4525154B2 (ja) | 2004-04-21 | 2004-04-21 | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005309706A JP2005309706A (ja) | 2005-11-04 |
JP4525154B2 true JP4525154B2 (ja) | 2010-08-18 |
Family
ID=35438437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004124919A Expired - Fee Related JP4525154B2 (ja) | 2004-04-21 | 2004-04-21 | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4525154B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100837751B1 (ko) | 2006-12-12 | 2008-06-13 | 엔에이치엔(주) | 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템 |
US8200671B2 (en) * | 2009-02-26 | 2012-06-12 | Fujitsu Limited | Generating a dictionary and determining a co-occurrence context for an automated ontology |
WO2011136426A1 (ko) * | 2010-04-28 | 2011-11-03 | 한국과학기술정보연구원 | 문맥으로부터의 개체명 추출을 이용한 개체명 사전 구축과 규칙 등록 방법 및 시스템 |
CN102314448B (zh) * | 2010-07-06 | 2013-12-04 | 株式会社理光 | 一种在文档中获得一个或多个关键元素的设备和方法 |
JP5798086B2 (ja) * | 2012-06-11 | 2015-10-21 | 日本電信電話株式会社 | 文書からの地名と語の対の抽出装置及び方法及びプログラム |
WO2014033799A1 (ja) * | 2012-08-27 | 2014-03-06 | 株式会社日立製作所 | 単語意味関係抽出装置 |
JP6297835B2 (ja) * | 2013-12-26 | 2018-03-20 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
CN109658148B (zh) * | 2018-12-14 | 2023-01-17 | 杭州东信北邮信息技术有限公司 | 一种基于自然语言处理技术的营销活动投诉风险预测方法 |
CN111488401B (zh) * | 2020-03-06 | 2023-06-23 | 天津大学 | 一种基于多元化关系画像技术的在线社会关系搜索方法 |
CN114077651A (zh) * | 2020-08-20 | 2022-02-22 | 南京行者易智能交通科技有限公司 | 一种大数据案例匹配模型的设计方法及装置 |
CN113255336A (zh) * | 2021-05-20 | 2021-08-13 | 北京明略昭辉科技有限公司 | 基于wllr计算字向量的方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001331515A (ja) * | 2000-05-23 | 2001-11-30 | Sigmatics Inc | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 |
JP2001331484A (ja) * | 2000-05-22 | 2001-11-30 | Hitachi Ltd | パラレルシソーラスの生成プログラムを記録した記録媒体、パラレルシソーラスを記録した記録媒体及びパラレルシソーラスナビゲーションプログラムを記録した記録媒体 |
JP2003256447A (ja) * | 2002-02-26 | 2003-09-12 | Kyoji Umemura | 関連語抽出方法および装置 |
JP2005208840A (ja) * | 2004-01-21 | 2005-08-04 | Mitsubishi Electric Corp | シソーラス生成装置 |
JP2005250762A (ja) * | 2004-03-03 | 2005-09-15 | Mitsubishi Electric Corp | 辞書生成装置、辞書生成方法および辞書生成プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134360A (ja) * | 1995-11-10 | 1997-05-20 | Omron Corp | 『語』の概念を定量化するための方法及び装置、並びに、それらを用いた方法及び装置 |
-
2004
- 2004-04-21 JP JP2004124919A patent/JP4525154B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001331484A (ja) * | 2000-05-22 | 2001-11-30 | Hitachi Ltd | パラレルシソーラスの生成プログラムを記録した記録媒体、パラレルシソーラスを記録した記録媒体及びパラレルシソーラスナビゲーションプログラムを記録した記録媒体 |
JP2001331515A (ja) * | 2000-05-23 | 2001-11-30 | Sigmatics Inc | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 |
JP2003256447A (ja) * | 2002-02-26 | 2003-09-12 | Kyoji Umemura | 関連語抽出方法および装置 |
JP2005208840A (ja) * | 2004-01-21 | 2005-08-04 | Mitsubishi Electric Corp | シソーラス生成装置 |
JP2005250762A (ja) * | 2004-03-03 | 2005-09-15 | Mitsubishi Electric Corp | 辞書生成装置、辞書生成方法および辞書生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2005309706A (ja) | 2005-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
Feinerer et al. | Text mining infrastructure in R | |
Nakov et al. | Citances: Citation sentences for semantic analysis of bioscience text | |
US9659084B1 (en) | System, methods, and user interface for presenting information from unstructured data | |
Wang et al. | Implicit feature identification via hybrid association rule mining | |
US8983963B2 (en) | Techniques for comparing and clustering documents | |
Chen et al. | A robust web personal name information extraction system | |
Bagalkotkar et al. | A novel technique for efficient text document summarization as a service | |
JP4525154B2 (ja) | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム | |
Alani et al. | Automatic extraction of knowledge from web documents | |
Hassel | Evaluation of automatic text summarization | |
Madatov et al. | Uzbek text summarization based on TF-IDF | |
Liebeskind et al. | Semiautomatic construction of cross-period thesaurus | |
Nay | Natural Language Processing for Legal Texts | |
Antonia Marti et al. | DISCOver: DIStributional approach based on syntactic dependencies for discovering COnstructions | |
Hui et al. | Application of literature-based discovery in nonmedical disciplines: a survey | |
Akhmetov et al. | A Comprehensive Review on Automatic Text Summarization | |
Ma et al. | Combining n-gram and dependency word pair for multi-document summarization | |
Wu | Investigations on event-based summarization | |
Jivani et al. | The multi-liaison algorithm | |
Ababneh et al. | An efficient framework of utilizing the latent semantic analysis in text extraction | |
Guan et al. | An automatic text summary extraction method based on improved textrank and TF-IDF | |
Acharya et al. | The process of information extraction through natural language processing | |
Hachey | Towards generic relation extraction | |
Eder et al. | A Question of Style: A Dataset for Analyzing Formality on Different Levels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100524 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4525154 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140611 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |