JP7170487B2 - 情報処理装置およびプログラム - Google Patents
情報処理装置およびプログラム Download PDFInfo
- Publication number
- JP7170487B2 JP7170487B2 JP2018189532A JP2018189532A JP7170487B2 JP 7170487 B2 JP7170487 B2 JP 7170487B2 JP 2018189532 A JP2018189532 A JP 2018189532A JP 2018189532 A JP2018189532 A JP 2018189532A JP 7170487 B2 JP7170487 B2 JP 7170487B2
- Authority
- JP
- Japan
- Prior art keywords
- extracted
- character string
- word
- documents
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
語句」であってもよい。「文字列特徴量」は単一の値からなる指標(スカラー)でもよいし複数の値の組からなる指標(ベクトル)であってもよい。スカラーの場合、「文字列特徴量の差」は、例えば、2つの文字列の文字列特徴量の差又はその絶対値である。ベクトルの場合、「文字列特徴量の差」は、例えば、2つのベクトルのコサイン類似度やユークリッド距離から計算できる。
として捉えることもできる。
図1は、第1実施形態に係る情報処理装置100の構成の一例を示す図である。図1には、情報処理装置100に接続されるディスプレイ210、キーボード220およびマウス230も例示されている。情報処理装置100は、Central Processing Unit(CPU
)101、主記憶部102、補助記憶部103、通信部104、入出力インターフェース(図中では、入出力IFと表記)105を備えるコンピュータである。CPU101、主記憶部102、補助記憶部103、通信部104および入出力インターフェース105は、接続バスB1によって相互に接続される。
IC)、プログラマブルロジックデバイス(PLD)を含む。PLDは、例えば、Field-Programmable Gate Array(FPGA)を含む。CPU101は、プロセッサと集積回路
との組み合わせであってもよい。組み合わせは、例えば、マイクロコントローラユニット(MCU)、System-on-a-chip(SoC)、システムLSI、チップセットなどと呼ばれる。
ステートドライブ(Solid State Drive、SSD)、ハードディスクドライブ(Hard Disk
Drive、HDD)等である。また、補助記憶部103は、例えば、Compact Disc(CD)ドライブ装置、Digital Versatile Disc(DVD)ドライブ装置、Blu-ray(登録商標) Disc(BD)ドライブ装置等である。また、補助記憶部103は、Network Attached Storage(NAS)あるいはStorage Area Network(SAN)によって提供されてもよい。
210は、入出力インターフェース105を介して情報処理装置100に接続される。
図2は、第1実施形態に係る情報処理装置100の機能ブロックの一例を示す図である。情報処理装置100は、テキスト検索部301、テキストデータベース(図中では、テキストDBと表記)301a、形態素解析部302、文書ベクトル生成部303、単語ベクトル生成部304、単語分類度計算部306、分類器307、特徴モデル307a、分類度ベクトル生成部308、基点決定部309,表示データ生成部310、単語特徴量比較部311、ノード近接処理部312、重みづけ履歴312aおよび係数表示部313を備える。情報処理装置100は、主記憶部102に実行可能に展開されたコンピュータプログラムをCPU101が実行することで、上記各部としての処理を実行する。
Identifier(URI)をテキストデータベース301aに格納してもよい。テキストデ
ータベース301aは、「データベース」の一例である。
ぞれに単語IDを付し、それらを解析結果として主記憶部102に格納する。単語IDは、単語を一意に特定するための識別情報である。形態素解析部302は、「解析部」の一例である。なお本実施形態では、解析部の具体例として形態素解析を例示したが、文書の解析方法は形態素解析に限られず、他の方法を採用してもよい。例えば、日本語の文書の場合には形態素解析の他、チャンキング処理を含む構文解析などを利用してもよい。また、英語の文書の場合にはtokenizerやchunkerを利用することも好ましい。
「スイカ」の分類度=6×0.8+3×(-0.1)=4.5
と求まる。なお本実施形態では、文書特徴スコアと出現回数の積の合計値を分類度と定義したが、合計値の代わりに別の統計量を用いてもよい。例えば、平均、標準偏差等によって分類度が求められてもよい。
現回数との積を要素としてもつベクトルを、当該単語の特徴量とする。この特徴量も、後段の木構造生成処理において単語の分類に利用されるため、本明細書でこの特徴量を「分類度ベクトル」と称する。例えば図6の「スイカ」の場合、分類度ベクトル3081は{…,0,0,6×0.8,0,3×(-0.1),…}となる。なお、本実施形態の例では、単語の分類度は、当該単語の分類度ベクトルのすべての要素の和に等しくなる。
図11から図14を参照して、第1実施形態に係る情報処理装置100が実行する処理フローについて説明する。図11から図14は、第1実施形態に係る処理フローの一例を
示す図である。図11の「A」は図12の「A」に接続し、図12の「B」は図13の「B」に接続し、図13の「C」は図14の「C」に接続し、図14の「D」は図12の「D」に接続する。
るため、子ノードを追加可能なノードとは、子ノードを有していないか、1つの子ノードのみを有するノードである。そして、単語特徴量比較部311は、ステップS11で選択された追加候補の単語と子ノードを追加可能なノードに対応付けられた単語とのすべての組み合わせについて、単語間の特徴量を比較し、単語間の類似度が最も高い(特徴量の差が最も小さい)組み合わせを選定する。追加候補の単語と子ノードを追加可能なノードの情報は、表示データ生成部310に渡される。
Nは「すべてのノード(単語)の中での、出現文書の最大数」であり、
MCは「近接対象ノード(単語)の間で共通する出現文書の数」であり、
NCは「近接対象ノード(単語)の数」であり、
MAは「すべての文書の文書特徴スコアの平均値」である。
N2は「すべてのノード(単語)の中での、出現文書の最大数」であり、
MC2は「近接対象ノード(単語)の間で共通する出現文書数」であり、
NC2は「近接対象ノード(単語)の数」である。
形態では、近接対象ノードの共通文書の文書特徴スコアに重みW2を乗じる、という処理を行う。上記例のように、近接対象ノードとして「ミカン」と「イチゴ」が選ばれている場合、「ミカン」と「イチゴ」の共通文書は文書ID「13」の文書1つであるから、重みづけ処理の結果、文書ID「13」の文書特徴スコアのみが0.8→1.2(=0.8×1.5)のように調整される。そして、調整後の文書特徴スコアを用いて、すべての単語の分類度ベクトルが再計算され、各単語の分類度ベクトルが図10の下段のように変化する。
このような重みづけ処理によって、近接対象ノードとして選ばれた単語である「ミカン」と「イチゴ」の分類度ベクトルだけでなく、近接対象ノードの共通文書に出現する他の単語「リンゴ」、「スイカ」、「メロン」の分類度ベクトルも変化することがわかる。その結果、重みづけ処理の前と後で、単語同士の類似関係が変化する。
木構造を三分木とする場合、分岐数として「3」が指定されればよい。
以上述べた第1実施形態による利点をまとめると次のとおりである。上述した木構造では、単語の特徴を表す特徴量(分類度又は分類度ベクトル)の差に基づいて各ノードの配置が決定されているので、各ノード(単語)の配置や接続関係などから、検索結果である複数の抽出文書に出現する単語の傾向などを容易に把握できる。また、上記実施形態では、単語の特徴を、単語そのものではなく、当該単語を使用している文書(テキスト、文脈)の特徴である文書特徴スコアを使って表現している。それゆえ、木構造における各ノードの配置や接続関係は、文書同士の関連性・類似性を反映したものとなる。したがって、上述した木構造を用いることにより、複数の文書について、文書同士の関連性・類似性や文書に登場する単語同士の関係を適切かつ直感的に表現することができる。しかも、木構造におけるノード間の関連性の強さをユーザ自身が容易に変更することができる。よって、ユーザによる情報探索作業を支援することが可能となる。
図17を参照して、本発明の第2実施形態について説明する。第2実施形態では、単語分類器(文字列の分類器)を用いて単語から直接的に単語の特徴量である分類度を求める。
よい。文字列と文字列特徴量との対応関係を学習するための教師データとして、当該文字列が出現する文書のデータを利用することにより、第1実施形態の方法で求められる特徴量(分類度)と同じような特性をもつ特徴量を得ることができる。例えば、文字列を「果物」か「野菜」かの2つのカテゴリに分類する単語分類器を学習する場合であれば、「果物」について記載されている多数の文書データ、及び、「野菜」について記載されている多数の文書データを、教師データとして用いる。そして、教師データ(つまり「果物」カテゴリの文書群と「野菜」カテゴリの文書群)から抽出した文字列(例えば「リンゴ」、「ミカン」など)が各カテゴリの文書群に出現する割合に応じて、当該文字列を各カテゴリに分類することの確からしさ(つまり、「果物らしさ」、「野菜らしさ」)を学習する。このような単語分類器を用いると、例えば、「リンゴ」という文字列を入力したときに、「果物:0.98、野菜:0.31」というような出力スコアが得られる。
以上述べた第2実施形態の構成によっても、第1実施形態と同様の作用効果を得ることができる。
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させる情報処理プログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ルーレイディスク(BD)、Digital Audio Tape(DAT)、8mmテープ、フラッシュメモリなどのメモリカード等がある。また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
210・・・ディスプレイ
220・・・キーボード
230・・・マウス
3031・・・文書ベクトル
3041・・・単語ベクトル
3081・・・分類度ベクトル
Claims (6)
- データベースに蓄積された文書群から、検索条件にマッチする複数の文書を抽出文書として抽出する検索部と、
前記複数の抽出文書を解析することによって、前記複数の抽出文書から複数の文字列を抽出文字列として抽出する解析部と、
前記複数の抽出文字列の各々について、当該抽出文字列の特徴を表す文字列特徴量を求める文字列特徴算出部と、
前記複数の抽出文字列の各々がノードに対応付けられ、かつ、抽出文字列間の文字列特徴量の差に基づいて各ノードが配置された、木構造を出力する出力部と、
前記木構造において2以上のノードを指定して所定の操作が行われると、少なくとも指定された前記2以上のノードに対応付けられている文字列の文字列特徴量に影響を与える所定の処理を実行した後、前記木構造の再構築を行う処理部と、
を有する情報処理装置。 - 前記複数の抽出文書の各々について、当該文書が有する特徴を数値化した文書特徴スコアを算出する文書特徴算出部をさらに備え、
前記文字列特徴算出部は、前記複数の抽出文字列の各々について、当該抽出文字列を含む1以上の抽出文書の文書特徴スコアから当該抽出文字列の文字列特徴量を求める、
請求項1に記載の情報処理装置。 - 前記所定の処理は、指定された前記2以上のノードに対応付けられている文字列の文字列特徴量に対して重みづけを行う処理である、
請求項1又は2に記載の情報処理装置。 - 前記文字列特徴算出部は、入力文字列をn個のクラス(nは2以上の整数)に分類する文字列分類器から構成され、前記抽出文字列を前記文字列分類器に入力したときの出力ス
コアを当該抽出文字列の文字列特徴量とする、
請求項1に記載の情報処理装置。 - 前記所定の処理は、指定された前記2以上のノードのそれぞれに対応付けられている2以上の文字列に共通に関係する教師データを追加した上で、前記文字列分類器の再学習を行う処理である、
請求項4に記載の情報処理装置。 - データベースに蓄積された文書群から、検索条件にマッチする複数の文書を抽出文書として抽出するステップと、
前記複数の抽出文書を解析することによって、前記複数の抽出文書から複数の文字列を抽出文字列として抽出するステップと、
前記複数の抽出文字列の各々について、当該抽出文字列の特徴を表す文字列特徴量を求めるステップと、
前記複数の抽出文字列の各々がノードに対応付けられ、かつ、抽出文字列間の文字列特徴量の差に基づいて各ノードが配置された、木構造を出力するステップと、
前記木構造において2以上のノードを指定して所定の操作が行われると、少なくとも指定された前記2以上のノードに対応付けられている文字列の文字列特徴量に影響を与える所定の処理を実行した後、前記木構造の再構築を行うステップと、
をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189532A JP7170487B2 (ja) | 2018-10-04 | 2018-10-04 | 情報処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189532A JP7170487B2 (ja) | 2018-10-04 | 2018-10-04 | 情報処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020060816A JP2020060816A (ja) | 2020-04-16 |
JP7170487B2 true JP7170487B2 (ja) | 2022-11-14 |
Family
ID=70218978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018189532A Active JP7170487B2 (ja) | 2018-10-04 | 2018-10-04 | 情報処理装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7170487B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249935A (ja) | 2000-03-07 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
CN101281530A (zh) | 2008-05-20 | 2008-10-08 | 上海大学 | 基于概念衍生树的关键词层次聚类方法 |
JP2010231434A (ja) | 2009-03-26 | 2010-10-14 | Hitachi East Japan Solutions Ltd | 表示装置、表示方法およびプログラム |
JP2012141955A (ja) | 2010-12-30 | 2012-07-26 | Internatl Business Mach Corp <Ibm> | 平坦データの階層情報を取得する方法及び装置 |
US20160026709A1 (en) | 2014-07-28 | 2016-01-28 | Adp, Llc | Word Cloud Candidate Management System |
-
2018
- 2018-10-04 JP JP2018189532A patent/JP7170487B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249935A (ja) | 2000-03-07 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
CN101281530A (zh) | 2008-05-20 | 2008-10-08 | 上海大学 | 基于概念衍生树的关键词层次聚类方法 |
JP2010231434A (ja) | 2009-03-26 | 2010-10-14 | Hitachi East Japan Solutions Ltd | 表示装置、表示方法およびプログラム |
JP2012141955A (ja) | 2010-12-30 | 2012-07-26 | Internatl Business Mach Corp <Ibm> | 平坦データの階層情報を取得する方法及び装置 |
US20160026709A1 (en) | 2014-07-28 | 2016-01-28 | Adp, Llc | Word Cloud Candidate Management System |
Also Published As
Publication number | Publication date |
---|---|
JP2020060816A (ja) | 2020-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8918348B2 (en) | Web-scale entity relationship extraction | |
US10783451B2 (en) | Ensemble machine learning for structured and unstructured data | |
US11625537B2 (en) | Analysis of theme coverage of documents | |
JP7203554B2 (ja) | 情報処理装置 | |
US20150205860A1 (en) | Information retrieval device, information retrieval method, and information retrieval program | |
WO2019245886A1 (en) | Topic set refinement | |
JP2019121139A (ja) | 要約装置、要約方法、及び要約プログラム | |
Salih et al. | Semantic Document Clustering using K-means algorithm and Ward's Method | |
Palliyali et al. | Comparative study of extractive text summarization techniques | |
JP7170487B2 (ja) | 情報処理装置およびプログラム | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
Saeed et al. | An abstractive summarization technique with variable length keywords as per document diversity | |
US9886488B2 (en) | Conceptual document analysis and characterization | |
Pasarate et al. | Concept based document clustering using K prototype Algorithm | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
Shen et al. | A hybrid model combining formulae with keywords for mathematical information retrieval | |
Pitichotchokphokhin et al. | Discover underlying topics in Thai news articles: a comparative study of probabilistic and matrix factorization approaches | |
Mukherjee et al. | Automatic extraction of significant terms from the title and abstract of scientific papers using the machine learning algorithm: A multiple module approach | |
Al Dakhil et al. | Reviews Analysis of Apple Store Applications Using Supervised Machine Learning | |
Lahbari et al. | Exploring Sentence Embedding Representation for Arabic Question/Answering | |
Testas | Natural Language Processing with Pandas, Scikit-Learn, and PySpark | |
Şimşek et al. | Sentiment Analysis of Twitter Data of Hepsiburada E-commerce Site Customers with Natural Language Processing | |
Alanzi et al. | Query-Focused Multi-document Summarization Survey | |
Wachowiak | Introduction to Text Analysis In R | |
Deforche et al. | A Hierarchical Orthographic Similarity Measure for Interconnected Texts Represented by Graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210430 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7170487 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |