JP7048024B1

JP7048024B1 - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: JP7048024B1
Application number: JP2021161872A
Authority: JP
Inventors: 良岡崎; 潤平小林; 吉英鎌田; 敏明中澤
Original assignee: Sharefair
Current assignee: Sharefair
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-04-05
Anticipated expiration: 2041-09-30
Also published as: JP2023051296A

Abstract

【課題】複数の文書データに含まれている各文を関連する内容ごとに分類することで文書データの分析を支援するための技術を提供する。【解決手段】情報処理装置は、複数の文書データを取得するための取得部と、複数の文書データに含まれている文字列を文単位に分割するための分割部と、第１分類アルゴリズムに従って、文単位に分割された複数の文の全部または一部の各文に、第１分類群の内のいずれかの第１分類を付与するための分類付与部と、第１分類が付与された各文を第１分類の種別に並び替えるための並び替え部と、並び替え部によって並び替えられた各文を出力するための出力部とを備える。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法、および情報処理プログラムに関する。

特開２０１９－２００４８８号公報（特許文献１）は、「所定の文法機能分類を構成素に対して特定する」自然言語処理装置を開示している。当該自然言語処理装置は、文書データに含まれている各文に対して文法機能分類を付与している。当該文法機能分類の種類としては、主語や目的語などが挙げられている。当該自然言語処理装置は、検索キーワードの入力だけでなく、当該検索キーワードの文法機能分類の入力をユーザから受け付ける。これにより、当該自然言語処理装置は、例文の検索結果の精度を高める。

特開２０１９－２００４８８号公報

ところで、主に経営コンサルタントや企業の企画部門の担当者は、世の中に存在する膨大な文書データの中から目的に合った情報を収集し、収集した情報を分析する。世の中に存在する文書データの数は膨大であるため、必要な情報を分析するために多大な時間が必要となる。このとき、文書データに含まれている各文が関連する内容ごとに纏められていると、情報分析の負担が軽減される。したがって、複数の文書データに含まれている各文を関連する内容ごとに分類することで文書データの分析を支援するための技術が望まれている。なお、特許文献１は、当該技術に関するものではない。

本開示の一例では、情報処理装置は、複数の文書データを取得するための取得部と、上記複数の文書データに含まれている文字列を文単位に分割するための分割部と、第１分類アルゴリズムに従って、上記文単位に分割された複数の文の全部または一部の各文に、第１分類群の内のいずれかの第１分類を付与するための分類付与部と、上記第１分類が付与された各文を上記第１分類の種別に並び替えるための並び替え部と、上記並び替え部によって並び替えられた各文を出力するための出力部とを備える。

本開示の一例では、上記分類付与部は、さらに、第２分類アルゴリズムに従って、上記文単位に分割された複数の文の全部または一部の各文に、第２分類群の内のいずれかの第２分類を付与する。上記第２分類群が属するカテゴリーは、上記第１分類群が属するカテゴリーとは異なる。上記並び替え部は、さらに、同種の第１分類が付与されている文の集合ごとに、上記第２分類が付与された各文を、上記第２分類の種別に並び替える。

本開示の一例では、上記出力部は、上記並び替え部による並び替え前における文の並び順が連続している文群であり、かつ、同種の第１分類が付与されている文群については、当該文群を統合して出力する。

本開示の一例では、上記並び替え部は、上記第１分類の付与数を上記第１分類の種別にカウントし、上記第１分類が付与された各文を上記付与数が多い順に並び替える。

本開示の一例では、上記第１分類群は、組織に関する分類を含む。

本開示の他の例では、コンピュータによって実行される情報処理方法が提供される。上記情報処理方法は、複数の文書データを取得するステップと、上記複数の文書データに含まれている文字列を文単位に分割するステップと、第１分類アルゴリズムに従って、上記文単位に分割された複数の文の全部または一部の各文に、第１分類群の内のいずれかの第１分類を付与するステップと、上記第１分類が付与された各文を上記第１分類の種別に並び替えるステップと、上記並び替えるステップで並び替えられた各文を出力するステップとを実行させる。

本開示の他の例では、コンピュータによって実行される情報処理プログラムが提供される。上記情報処理プログラムは、上記コンピュータに、複数の文書データを取得するステップと、上記複数の文書データに含まれている文字列を文単位に分割するステップと、第１分類アルゴリズムに従って、上記文単位に分割された複数の文の全部または一部の各文に、第１分類群の内のいずれかの第１分類を付与するステップと、上記第１分類が付与された各文を上記第１分類の種別に並び替えるステップと、上記並び替えるステップで並び替えられた各文を出力するステップとを実行させる。

本発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解される本発明に関する次の詳細な説明から明らかとなるであろう。

情報処理システムの装置構成の一例を示す図である。情報処理装置の機能構成の一例を示す図である。取得部の機能を説明するための図である。分割部の機能を概略的に示す図である。企業分類付与部の機能を概略的に示す図である。商品分類付与部の機能を概略的に示す図である。並び替え部の機能を概略的に示す図である。分類の付与数のカウント結果を示す図である出力部の機能を概略的に示す図である。情報処理装置のハードウェア構成の一例を示す模式図である。ユーザ端末のハードウェア構成の一例を示す模式図である。情報処理装置が実行する処理の一部を表わすフローチャートである。変形例に従う情報処理装置の機能構成の一例を示す図である。変形例に従う入力画面を示す図である。一例としての目的選択画面を示す図である。一例としての領域選択画面を示す図である。

以下、図面を参照しつつ、本発明に従う各実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態および各変形例は、適宜選択的に組み合わされてもよい。

＜Ａ．情報処理システム１０＞
まず、図１を参照して、情報処理システム１０について説明する。図１は、情報処理システム１０の装置構成の一例を示す図である。

図１に示されるように、情報処理システム１０は、情報処理装置１００と、ユーザ端末２００とを含む。

情報処理装置１００は、たとえば、ノート型のＰＣ（Personal Computer）、デスクトップ型のＰＣ、タブレット端末、スマートフォン、または、その他の通信端末である。情報処理システム１０を構成する情報処理装置１００の数は、１つであってもよいし、２つ以上であってもよい。

ユーザ端末２００は、たとえば、ノート型のＰＣ、デスクトップ型のＰＣ、タブレット端末、スマートフォン、または、その他の通信端末である。情報処理システム１０を構成するユーザ端末２００の数は、１つであってもよいし、２つ以上であってもよい。ユーザ端末２００は、情報処理装置１００と通信可能に構成される。

＜Ｂ．分類処理の概要＞
次に、引き続き図１を参照して、情報処理装置１００による文の分類機能について説明する。

情報処理装置１００は、膨大な文書データＤに含まれている各文に対して自動で分類を付与する。文書データＤは、文字列を含む任意の種類のファイルである。文書データＤの一例としては、Ｗｏｒｄファイル、Ｅｘｃｅｌファイル、ＰＰＴファイル、ＰＤＦファイル、テキストファイル、ＨＴＭＬ（Hyper Text Markup Language）ファイル、ＸＭＬ（Extensible Markup Language）ファイルなどが挙げられる。また、文書データＤは、日本語で記載された文書であってもよいし、英語で記載された文書であってもよいし、その他の言語で記載された文書であってもよい。

膨大な文書データＤに含まれている各文に対して分類が自動で付与されることで、膨大な文が構造化される。これにより、ユーザは、文書データＤに含まれている各文を、内容が関連する記載ごとに分析することができる。

より具体的な処理として、ステップＳ１において、ユーザは、分析対象の文書データＤをユーザ端末２００において準備する。その後、ユーザは、文書データＤをユーザ端末２００から情報処理装置１００にアップロードする。アップロードされる文書データＤは、同一種類のファイルであってもよいし、異なる種類のファイルであってもよい。

ステップＳ２において、情報処理装置１００は、ユーザ端末２００から文書データＤを受信したことに基づいて、文書データＤに含まれている文字列を文単位に分割する。本明細書でいう「文単位」は、１文に限定されず、複数文であってもよい。すなわち、情報処理装置１００は、文書データＤに含まれている文字列を必ずしも１文ごとに分割する必要はなく、２文以上の複数文ごとに分割してもよい。

ステップＳ３において、情報処理装置１００は、予め定められた分類アルゴリズムに従って、ステップＳ２で文単位に分割された各文に、予め定められた分類群の内のいずれかの分類を付与する。当該分類群は、設計者によって予め定義されていてもよいし、ユーザによって任意に設定されてもよい。上記分類アルゴリズムには、種々のアルゴリズムが採用され得る。分類の付与方法の詳細については後述する。

なお、分類は、ステップＳ２で文単位に分割された全部の文に付与される必要はない。分類は、ステップＳ２で文単位に分割された少なくとも一部の文に付与されればよい。また、１つの文に対して１つの分類が付与されてもよいし、１つの文に対して複数の分類が付与されてもよい。

ステップＳ４において、情報処理装置１００は、ステップＳ３で分類が付与された各文を当該分類の種別に並び替える。これにより、情報処理装置１００は、文書データＤに記載されている各文を同種の分類ごとに纏める。

ステップＳ５において、情報処理装置１００は、ステップＳ２～Ｓ４での処理結果を出力結果１３０として出力する。出力結果１３０に示されるように、文書データＤに記載されている各文は、同種の分類ごとに並べられている。情報処理装置１００は、出力結果１３０をユーザ端末２００に送信する。

ユーザ端末２００は、情報処理装置１００から受信した出力結果１３０を表示する。これにより、ユーザは、文書データＤに含まれている各文を、内容が関連する記載ごとに分析することができる。結果として、情報処理装置１００は、ユーザによる文書データＤの情報分析を支援することができる。

＜Ｃ．情報処理装置１００の機能構成＞
次に、図２～図９を参照して、情報処理装置１００の機能構成について説明する。図２は、情報処理装置１００の機能構成の一例を示す図である。

図２に示されるように、情報処理装置１００は、ハードウェア構成として、制御装置１０１と、記憶装置１２０とを含む。制御装置１０１は、機能構成として、取得部５２と、分割部５４と、分類付与部５６と、並び替え部５８と、出力部６０とを含む。記憶装置１２０には、たとえば、辞書データ１２４と、設定データ１２６とが格納されている。

以下では、取得部５２、分割部５４、分類付与部５６、並び替え部５８、出力部６０の機能構成について順に説明する。

（Ｃ１．取得部５２）
まず、図３を参照して、図２に示される取得部５２の機能について説明する。図３は、取得部５２の機能を説明するための図である。

取得部５２は、分類付与対象の文書データＤを取得するための機能モジュールである。文書データＤの取得先は任意である。一例として、取得部５２は、外部装置（たとえば、上述のユーザ端末２００）から文書データＤを取得してもよいし、記憶装置１２０内から文書データＤを取得してもよい。

以下では、ユーザ端末２００から文書データＤを取得する前提で説明を行なう。文書データＤは、たとえば、図３に示される入力画面２３０においてアップロードされる。入力画面２３０は、たとえば、ユーザ端末２００のディスプレイに表示される。

図３に示されるように、入力画面２３０は、タイトルの入力領域２３１と、文書データＤの受付領域２３３Ａと、選択ボタン２３３Ｂと、作成ボタン２３４とを含む。

入力領域２３１は、文字列の入力を受け付ける。入力領域２３１に入力された文字列は、上述の出力結果１３０のタイトルとしてみなされる。

受付領域２３３Ａは、文書データＤの入力を受け付けることが可能な領域である。ユーザは、文書データＤを受付領域２３３Ａにドラッグ＆ドロップすることによって、アップロード対象の文書データＤを指定することができる。このとき、文書データＤは１つずつドラッグ＆ドロップされてもよい。複数の文書データＤが同時にドラッグ＆ドロップされてもよい。なお、アップロード対象の文書データＤは、ユーザ端末２００内に保存されていてもよいし、クラウド上に保存されていてもよい。

選択ボタン２３３Ｂは、ファイルを直接指定するためのボタンである。ユーザが選択ボタン２３３Ｂを押したことに基づいて、ファイルの選択画面が入力画面２３０上に表示される。ユーザは、表示された選択画面において任意の文書データＤを指定することができる。

作成ボタン２３４は、アップロード対象として指定された文書データＤを情報処理装置１００に送信するためのボタンである。ユーザが作成ボタン２３４を押したことに基づいて、ユーザ端末２００は、アップロード対象の文書データＤを情報処理装置１００に送信する。これにより、情報処理装置１００の取得部５２は、ユーザ端末２００から文書データＤを取得する。

（Ｃ２．分割部５４）
次に、図４を参照して、図２に示される分割部５４の機能について説明する。図４は、分割部５４の機能を概略的に示す図である。

分割部５４は、取得部５２によって取得された文書データＤに含まれている文字列を文単位に分割するための機能モジュールである。当該文単位は、１文であってもよいし、２文以上であってもよい。

一例として、分割部５４は、文書データＤ内で予め定められたキーワード（たとえば、句点、ピリオド）を検索し、当該キーワードの文字位置で文書データＤに含まれている文字列を分割する。図４には、その分割結果の一例として、分割結果７０が示されている。

分割結果７０は、分割後の各文について、文ＩＤ（Identification）と、文書ＩＤと、文の開始位置と、文の終了位置とを関連付けている。

分割結果７０に規定されている文ＩＤは、分割後の各文を一意に特定するための情報である。文ＩＤは、番号で示されてもよいし、文名で示されてもよい。一例として、分割部５４は、文書データＤに含まれている文の並び順に従って、連番の文ＩＤを各文に割り振る。これにより、元々の文の並び順が文ＩＤから特定され得る。

分割結果７０に規定されている文書ＩＤは、文書データＤを一意に特定するための情報である。文書ＩＤは、番号で示されてもよいし、ファイル名などの文書名で示されてもよいし、ファイルパスで示されてもよい。

分割結果７０に規定されている開始位置は、文書データＤに含まれている各文の開始位置を特定するための情報である。当該開始位置は、たとえば、文書データＤ内における各文の１文字目の位置を示す。

分割結果７０に規定されている終了位置は、文書データＤに含まれている各文の終了位置を特定するための情報である。当該終了位置は、たとえば、文書データＤ内における各文の最終文字（たとえば、句点）の位置を示す。あるいは、当該終了位置は、各文の開始位置からの文字数で示されてもよい。

（Ｃ３．分類付与部５６）
次に、図５および図６を参照して、図２に示される分類付与部５６の機能について説明する。

分類付与部５６は、分割部５４による分割後の各文に対して様々な観点の分類を付与する。各観点は、たとえば、カテゴリーによって定義される。１つのカテゴリーには、当該カテゴリーの下位概念である分類群が予め対応付けられている。

カテゴリーの一例として、組織に関する分類が挙げられる。組織に関する分類には、下位概念である種々の分類群が予め対応付けられている。一例として、当該分類群は、企業名、会社名、組織名、および団体名を含む。なお、以下では、組織に関する分類として「企業分類」を例に挙げて説明を行うが、組織に関する分類は、企業分類に限定されない。

カテゴリーの他の例として、商品分類が挙げられる。当該商品分類には、下位概念である種々の分類群が予め対応付けられている。当該分類群は、企業が提供する商品やサービスに関する分類を含む。一例として、当該分類群は、商品名、サービス名、領域名などを含む。

上記企業分類は、たとえば、図２に示される企業分類付与部５６Ａによって付与される。また、上記商品分類は、図２に示される商品分類付与部５６Ｂによって付与される。以下では、企業分類付与部５６Ａおよび商品分類付与部５６Ｂの機能について順に説明する。

（ａ）企業分類付与部５６Ａ
まず、図５を参照して、図２に示される企業分類付与部５６Ａの機能について説明する。図５は、企業分類付与部５６Ａの機能を概略的に示す図である。

企業分類付与部５６Ａは、予め定められた分類アルゴリズムに従って、分割部５４によって文単位に分割された各文に対して、「企業分類」に属する分類群の内のいずれかの分類を付与する。企業分類は、各文がどの企業に関する記載であるのかを示す。

図５に示されるように、企業分類付与部５６Ａは、文書データＤと、分割結果７０と、辞書データ１２４Ａとの入力を受けて、分類結果７１Ａを出力する。

企業分類を付与するための分類アルゴリズムには、種々のアルゴリズムが採用され得る。以下では、企業分類を付与するための分類アルゴリズムの一例について説明する。

企業分類付与部５６Ａは、分割部５４による分割後の各文を、形態素解析や構文解析を行うための学習済みモデルに入力する。その後、企業分類付与部５６Ａは、各解析結果に基づいて、各文の企業分類を特定する。なお、企業分類付与部５６Ａは、共参照情報をさらに用いて各文の企業分類を特定してもよい。

形態素解析プログラムとしては、たとえば、ＭＥＣＡＢ、ＪＵＭＡＮ、ＪＡＮＯＭＥ、ＴＲＥＥＴＡＧＧＥＲ、またはＮＬＴＫなどの既存のプログラムが用いられる。形態素解析により、分割後の各文が言語上の最小単位である形態素に分割され、各形態素について品詞または格などの言語マーカーが特定される。

構文解析プログラムの一例としては、たとえば、ＫＮＰ、ＣａｂｏＣｈａ、またはＧｉＮＺＡなどの既存のプログラムが用いられる。

他の例として、企業分類付与部５６Ａは、辞書データ１２４Ａを参照して、各文の企業分類を特定する。辞書データ１２４Ａは、たとえば、言語マーカーとキーワードとの組み合わせを企業分類ごとに対応付けている。

一例として、辞書データ１２４Ａは、企業分類「Ａ社」に対して、言語マーカー「主語」およびキーワード「α」の組み合わせを対応付けているとする。この場合、企業分類付与部５６Ａは、上記の形態素解析の結果に基づいて、キーワード「α」を主語として含む文に企業分類「Ａ社」を付与する。なお、キーワード「α」には、企業分類名「Ａ」が含まれていてもよいし、企業分類名「Ａ」が含まれていなくてもよい。

このように、企業分類付与部５６Ａは、形態素への言語マーカーとキーワードとの組み合わせに基づいて、分割部５４による分割後の各文に対して企業分類を付与する。その結果、企業分類付与部５６Ａは、図５に示される分類結果７１Ａを出力する。

なお、企業分類を付与するに際には、言語マーカーおよびキーワードの組み合わせが必ずしも用いられる必要はない。一例として、辞書データ１２４Ａは、企業分類ごとにキーワードのみを対応付けていてもよい。この場合、企業分類付与部５６Ａは、分割部５４による分割後の各文から、辞書データ１２４Ａに規定されているキーワードを検索する。検索対象のキーワードを含む文に対しては、当該キーワードに対応付けられている企業分類が付与される。

（ｂ）商品分類付与部５６Ｂ
次に、図６を参照して、図２に示される商品分類付与部５６Ｂの機能について説明する。図６は、商品分類付与部５６Ｂの機能を概略的に示す図である。

商品分類付与部５６Ｂは、予め定められた分類アルゴリズムに従って、分割部５４によって文単位に分割された各文に対して、「商品分類」に属する分類群の内のいずれかの分類を付与する。商品分類は、各文がどの商品に関する記載であるのか、どのサービスに関する記載であるのか、またはどの領域に関する記載であるのかを示す。

図６に示されるように、商品分類付与部５６Ｂは、文書データＤと、分割結果７０と、辞書データ１２４Ｂとの入力を受けて、分類結果７１Ｂを出力する。

商品分類を付与するための分類アルゴリズムには、種々のアルゴリズムが採用され得る。以下では、商品分類を付与するための分類アルゴリズムの一例について説明する。

商品分類付与部５６Ｂは、企業分類付与部５６Ａと同様に、形態素解析結果および構文解析結果に基づいて、分割部５４による分割後の各文に商品分類を付与する。

他の例として、商品分類付与部５６Ｂは、辞書データ１２４Ｂを参照して、各文の商品分類を特定する。辞書データ１２４Ｂは、言語マーカーとキーワードとの組み合わせを商品分類ごとに対応付けている。

一例として、辞書データ１２４Ｂは、商品分類「商品Ａ」に対して、言語マーカー「述語」とキーワード「αを発売した」との組み合わせを対応付けているとする。この場合、商品分類付与部５６Ｂは、上記の形態素解析の結果に基づいて、キーワード「αを発売した」を述語として含む文に商品分類「商品Ａ」を付与する。なお、キーワード「α」には、商品分類名「Ａ」が含まれていてもよいし、商品分類名「Ａ」が含まれていなくてもよい。

このように、商品分類付与部５６Ｂは、形態素への言語マーカーとキーワードとの組み合わせに基づいて、分割部５４による分割後の各文に対して商品分類を付与する。その結果、商品分類付与部５６Ｂは、図６に示される分類結果７１Ｂを出力する。

なお、商品分類を付与する際には、言語マーカーおよびキーワードの組み合わせが必ずしも用いられる必要はない。一例として、辞書データ１２４Ｂは、商品分類ごとにキーワードのみを対応付けていてもよい。この場合、商品分類付与部５６Ｂは、分割部５４による分割後の各文から、辞書データ１２４Ｂに規定されているキーワードを検索する。検索対象のキーワードを含む文に対しては、当該キーワードに対応付けられている商品分類が付与される。

（Ｃ４．並び替え部５８）
次に、図７および図８を参照して、図２に示される並び替え部５８の機能について説明する。図７は、並び替え部５８の機能を概略的に示す図である。

図７に示されるように、並び替え部５８は、分類結果７２の入力と、設定データ１２６との入力を受けて、並び替え結果７３を出力する。分類結果７２は、上述の分割結果７０と、上述の分類結果７１Ａ，７１Ｂとを統合したものである。

並び替え部５８は、分類結果７２に規定されている各文を、分類付与部５６によって付与された分類の種別に並び替える。一例として、並び替え部５８は、分類の付与数を当該分類の種別にカウントし、当該付与数が多い順に各文を並び替える。これにより、各文が分類の出現数が多い順に並び替えられる。なお、並び替え部５８は、類似する文を統合した上で分類をカウントしてもよい。

図８は、分類の付与数のカウント結果７４を示す図である。図８の例では、カテゴリー「企業分類」については、分類「Ａ社」、分類「Ｆ社」、分類「Ｓ社」の順に付与数が多くなっている。この場合、並び替え部５８は、分類「Ａ社」が付与されている各文を最上位に移動する。次に、並び替え部５８は、分類「Ａ社」が付与されている各文の下位に、分類「Ｆ社」が付与されている各文を移動する。次に、並び替え部５８は、分類「Ｆ社」が付与されている各文の下位に、分類「Ｓ社」が付与されている各文を移動する。

図８の例では、カテゴリー「商品分類」については、分類「商品Ｄ」、分類「商品Ｇ」、分類「サービスＩ」の順に付与数が多くなっている。この場合、並び替え部５８は、分類「商品Ｄ」が付与されている各文を最上位に移動する。次に、並び替え部５８は、分類「商品Ｄ」が付与されている各文の下位に、分類「商品Ｇ」が付与されている各文を移動する。次に、並び替え部５８は、分類「商品Ｇ」が付与されている各文の下位に、分類「サービスＩ」が付与されている各文を移動する。

なお、並び替え部５８は、２つ以上のカテゴリーに基づいて各文を並び替える場合には、各カテゴリーの優先度に応じて並び替え処理の順番を変える。当該優先度は、たとえば、設定データ１２６において規定されている。当該優先度は、設計時などに予め設定されていてもよいし、ユーザによって任意に設定されてもよい。

一例として、並び替え部５８は、分割部５４による分割後の各文を、優先度の低いカテゴリーから順に並び替える。一例として、カテゴリー「企業分類」の優先度がカテゴリー「商品分類」の優先度よりも高く設定されているとする。この場合、並び替え部５８は、カテゴリー「商品分類」に基づいて分割部５４による分割後の各文を並び替え、その後、並び替えられた各文をカテゴリー「企業分類」に基づいてさらに並び替える。

より具体的には、並び替え部５８は、分割部５４による分割後の各文を、商品分類「商品Ｄ」、「商品Ｇ」、「サービスＩ」の順に並び替える。その後、並び替え部５８は、商品分類に基づいて並び替えられた各文を、企業分類「Ａ社」、「Ｆ社」、「Ｓ社」の順に並び替える。

これにより、分割部５４による分割後の各文は、企業分類「Ａ社」、「Ｆ社」、「Ｓ社」の順に並べられる。さらに、企業分類「Ａ社」が付与されている文の集合は、商品分類「商品Ｄ」、「商品Ｇ」、「サービスＩ」の順に並べられる。同様に、企業分類「Ｆ社」が付与されている文の集合は、商品分類「商品Ｄ」、「商品Ｇ」、「サービスＩ」の順に並べられる。同様に、企業分類「Ｓ社」が付与されている文の集合は、商品分類「商品Ｄ」、「商品Ｇ」、「サービスＩ」の順に並べられる。結果として、並び替え部５８は、同種の企業分類が付与されている文の集合ごとに、商品分類が付与された各文を、商品分類の種別に並び替えることができる。

（Ｃ５．出力部６０）
次に、図９を参照して、図２に示される出力部６０の機能について説明する。図９は、出力部６０の機能を概略的に示す図である。

出力部６０は、並び替え部５８によって並び替えられた各文を出力する。このとき、出力部６０は、ユーザが情報を分析しやすいように、並び替え部５８による並び替え結果７３を整える。図９の例では、その結果として、出力結果１３０が示されている。出力結果１３０は、予め定められたファイル形式（たとえば、Ｅｘｃｅｌ形式やＨＴＭＬ形式）で出力される。出力結果１３０は、ユーザ端末２００に送信される。

一例として、図９に示されるように、出力結果１３０は、ファイル情報７７と、並び替え結果７８とを含む。

ファイル情報７７は、上述の入力領域２３１（図３参照）に入力されたタイトルと、出力結果１３０の作成日時とを含む。

並び替え結果７８には、上述の並び替え部５８によって並び替えられた各文が表示される。典型的には、並び替え結果７８として表示される各文は、文書データＤに含まれている文と同じであり、文書データＤに含まれる文を要約したものではない。

並び替え結果７８として表示される各文には、上述の分類付与部５６によって付与された分類と、元文書に関する時期（たとえば、元文書の保存日時）とが並べて表示される。

好ましくは、出力部６０は、並び替え部５８による並び替え前における文の並び順が連続している文群であり、かつ、同種の分類が付与されている文群については、当該文群を統合して出力する。

より具体的な処理として、出力部６０は、まず、出力結果１３０に示されている文ＩＤが連続している文群を特定する。次に、出力部６０は、特定した文群の中で同種の分類が付与されている文群を抽出する。その後、出力部６０は、抽出した文群を一纏まりに統合する。

図９の例では、元々の並び順が連続していた文群７３Ａが、一纏まりの文７８Ａに統合されている。これにより、意味的に関わりがある文群が視覚的に纏められ、情報分析が容易になる。

出力部６０による出力結果１３０は、ユーザ端末２００に送信され、ユーザ端末２００上に表示される。ユーザは、ユーザ端末２００上で出力結果１３０を編集することができる。一例として、出力結果１３０における各カテゴリーには、フィルタリングボタン８０Ａ，８０Ｂが設けられる。フィルタリングボタン８０Ａ，８０Ｂは、表示対象の文をフィルタリングするための条件を受け付ける。

フィルタリングボタン８０Ａは、企業分類に関するフィルタリング条件の入力を受け付ける。より具体的には、ユーザがフィルタリングボタン８０Ａを押すと、企業分類のリストが表示される。リスト内の各企業分類は、選択可能に構成される。ユーザによって企業分類が選択されたことに基づいて、ユーザ端末２００は、選択された企業分類に対応する文のみを表示する。これにより、ユーザは、自身の目的に合致する企業の情報を収集することができる。

フィルタリングボタン８０Ｂは、商品分類に関するフィルタリング条件の入力を受け付ける。より具体的には、ユーザがフィルタリングボタン８０Ｂを押すと、商品分類のリストが表示される。リスト内の各商品分類は、選択可能に構成される。ユーザによって商品分類が選択されたことに基づいて、ユーザ端末２００は、選択された商品分類に対応する文のみを表示する。これにより、ユーザは、自身の目的に合致する商品の情報を収集することができる。

好ましくは、出力部６０は、出力結果１３０に含まれている文内で、分類に係る部分の文字列を他の部分よりも強調する。一例として、出力部６０は、企業分類「Ａ社」が付与されている文７８Ａについては、文中の「Ａ社」に係る文字列を他の部分よりも強調する。

強調の方法は任意である。一例として、出力部６０は、強調部分の文字色を第１の色（たとえば、赤色）で表示し、他の部分の文字列を第１の色とは異なる第２の色（たとえば、黒色）で表示する。他の例として、出力部６０は、強調部分の文字サイズを他の部分の文字サイズよりも大きくする。他の例として、出力部６０は、強調部分の文字列に下線を付してもよい。

なお、上述では、出力結果１３０がユーザ端末２００に送信された後にフィルタリング操作が行われる例について説明を行ったが、当該フィルタリング操作は、出力結果１３０がユーザ端末２００に送信される前に行われてもよい。この場合、ユーザは、ユーザ端末２００を介してＷｅｂ上でフィルタリング条件を入力する。情報処理装置１００は、フィルタリング条件の入力をユーザ端末２００から受信する度に、当該フィルタリング条件に基づいて表示対象の文をフィルタリングする。その後、ユーザ端末２００がユーザによる出力操作を受け付けたことに基づいて、情報処理装置１００は、フィルタリング後の出力結果をユーザ端末２００に送信する。

また、情報処理装置１００は、各カテゴリーの優先度の入力を受け付けてもよい。情報処理装置１００は、各カテゴリーの優先度の入力をユーザ端末２００から受信する度に上述の設定データ１２６（図７参照）を更新し、更新後の設定データ１２６に基づいてカテゴリーの表示順を入れ替える。設定データ１２６に基づく並び替え処理については上述の通りであるので、その説明については繰り返さない。その後、情報処理装置１００は、ユーザによる出力操作を受け付けたことに基づいて、並び替え後の出力結果をユーザ端末２００に送信する。

＜Ｄ．ハードウェア構成＞
図１０および図１１を参照して、上述の図１に示される情報処理装置１００とユーザ端末２００とのハードウェア構成について順に説明する。

（Ｄ１．情報処理装置１００のハードウェア構成）
まず、図１０を参照して、情報処理装置１００のハードウェア構成について順に説明する。図１０は、情報処理装置１００のハードウェア構成の一例を示す模式図である。

情報処理装置１００は、制御装置１０１と、ＲＯＭ（Read Only Memory）１０２と、ＲＡＭ（Random Access Memory）１０３と、通信インターフェイス１０４と、表示インターフェイス１０５と、入力インターフェイス１０７と、記憶装置１２０とを含む。これらのコンポーネントは、バス１１０に接続される。

制御装置１０１は、たとえば、少なくとも１つの集積回路によって構成される。集積回路は、たとえば、少なくとも１つのＣＰＵ（Central Processing Unit）、少なくとも１つのＧＰＵ（Graphics Processing Unit）、少なくとも１つのＡＳＩＣ（Application Specific Integrated Circuit）、少なくとも１つのＦＰＧＡ（Field Programmable Gate Array）、またはそれらの組み合わせなどによって構成され得る。

制御装置１０１は、情報処理プログラム１２２やオペレーティングシステムなどの各種プログラムを実行することで情報処理装置１００の動作を制御する。情報処理プログラム１２２は、上述の図２に示される各種機能構成に係るプログラムである。制御装置１０１は、情報処理プログラム１２２の実行命令を受け付けたことに基づいて、記憶装置１２０またはＲＯＭ１０２からＲＡＭ１０３に情報処理プログラム１２２を読み出す。ＲＡＭ１０３は、ワーキングメモリとして機能し、情報処理プログラム１２２の実行に必要な各種データを一時的に格納する。

通信インターフェイス１０４には、ＬＡＮ（Local Area Network）やアンテナなどが接続される。情報処理装置１００は、通信インターフェイス１０４を介して、外部機器との間でデータをやり取りする。当該外部機器は、たとえば、ユーザ端末２００やサーバーなどを含む。情報処理装置１００は、サーバーから情報処理プログラム１２２をダウンロード可能に構成されてもよい。

表示インターフェイス１０５には、ディスプレイ１０６が接続される。表示インターフェイス１０５は、制御装置１０１などからの指令に従って、ディスプレイ１０６に対して、画像を表示するための画像信号を送出する。ディスプレイ１０６は、たとえば、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、またはその他の表示機器である。なお、ディスプレイ１０６は、情報処理装置１００と一体的に構成されてもよいし、情報処理装置１００とは別に構成されてもよい。

入力インターフェイス１０７には、入力デバイス１０８が接続される。入力デバイス１０８は、たとえば、マウス、キーボード、タッチパネル、またはユーザの操作を受け付けることが可能なその他の装置である。なお、入力デバイス１０８は、情報処理装置１００と一体的に構成されてもよいし、情報処理装置１００とは別に構成されてもよい。

記憶装置１２０は、たとえば、ハードディスクやフラッシュメモリなどの記憶媒体である。記憶装置１２０は、情報処理プログラム１２２、上述の辞書データ１２４、および上述の設定データ１２６などを格納する。これらの格納場所は、記憶装置１２０に限定されず、制御装置１０１の記憶領域（たとえば、キャッシュメモリなど）、ＲＯＭ１０２、ＲＡＭ１０３、外部機器（たとえば、サーバー）などに格納されていてもよい。

なお、情報処理プログラム１２２は、単体のプログラムとしてではなく、任意のプログラムの一部に組み込まれて提供されてもよい。この場合、情報処理プログラム１２２に規定される各種処理は、任意のプログラムと協働して実現される。このような一部のモジュールを含まないプログラムであっても、本実施の形態に従う情報処理プログラム１２２の趣旨を逸脱するものではない。さらに、情報処理プログラム１２２によって提供される機能の一部または全部は、専用のハードウェアによって実現されてもよい。さらに、少なくとも１つのサーバーが情報処理プログラム１２２の処理の一部を実行する所謂クラウドサービスのような形態で情報処理装置１００が構成されてもよい。

（Ｄ２．ユーザ端末２００のハードウェア構成）
次に、図１１を参照して、ユーザ端末２００のハードウェア構成について順に説明する。図１１は、ユーザ端末２００のハードウェア構成の一例を示す模式図である。

ユーザ端末２００は、制御装置２０１と、ＲＯＭ（Read Only Memory）２０２と、ＲＡＭ（Random Access Memory）２０３と、通信インターフェイス２０４と、表示インターフェイス２０５と、入力インターフェイス２０７と、記憶装置２２０とを含む。これらのコンポーネントは、バス２１０に接続される。

制御装置２０１は、たとえば、少なくとも１つの集積回路によって構成される。集積回路は、たとえば、少なくとも１つのＣＰＵ、少なくとも１つのＧＰＵ、少なくとも１つのＡＳＩＣ、少なくとも１つのＦＰＧＡ、またはそれらの組み合わせなどによって構成され得る。

制御装置２０１は、情報処理プログラム２２２やオペレーティングシステムなどの各種プログラムを実行することでユーザ端末２００の動作を制御する。情報処理プログラム２２２は、上述の入力画面２３０や出力結果１３０を表示するためのプログラムである。

制御装置２０１は、情報処理プログラム２２２の実行命令を受け付けたことに基づいて、記憶装置２２０またはＲＯＭ２０２からＲＡＭ２０３に情報処理プログラム２２２を読み出す。ＲＡＭ２０３は、ワーキングメモリとして機能し、情報処理プログラム２２２の実行に必要な各種データを一時的に格納する。

通信インターフェイス２０４には、ＬＡＮ（Local Area Network）やアンテナなどが接続される。ユーザ端末２００は、通信インターフェイス２０４を介して、外部機器との間でデータをやり取りする。当該外部機器は、たとえば、情報処理装置１００やサーバーなどを含む。ユーザ端末２００は、当該外部機器から情報処理プログラム２２２をダウンロード可能に構成されてもよい。

表示インターフェイス２０５には、ディスプレイ２０６が接続される。表示インターフェイス２０５は、制御装置２０１などからの指令に従って、ディスプレイ２０６に対して、画像を表示するための画像信号を送出する。ディスプレイ２０６は、たとえば、液晶ディスプレイ、有機ＥＬディスプレイ、またはその他の表示機器である。なお、ディスプレイ２０６は、ユーザ端末２００と一体的に構成されてもよいし、ユーザ端末２００とは別に構成されてもよい。

入力インターフェイス２０７には、入力デバイス２０８が接続される。入力デバイス２０８は、たとえば、マウス、キーボード、タッチパネル、またはユーザの操作を受け付けることが可能なその他の装置である。なお、入力デバイス２０８は、ユーザ端末２００と一体的に構成されてもよいし、ユーザ端末２００とは別に構成されてもよい。

記憶装置２２０は、たとえば、ハードディスクやフラッシュメモリなどの記憶媒体である。記憶装置２２０は、上述の文書データＤ、出力結果１３０、情報処理プログラム２２２などを格納する。これらの格納場所は、記憶装置２２０に限定されず、制御装置２０１の記憶領域（たとえば、キャッシュメモリなど）、ＲＯＭ２０２、ＲＡＭ２０３、外部機器（たとえば、サーバー）などに格納されていてもよい。

＜Ｅ．フローチャート＞
次に、図１２を参照して、情報処理装置１００の制御構造について説明する。図１２は、情報処理装置１００が実行する処理の一部を表わすフローチャートである。

図１２に示される処理は、制御装置１０１が上述の情報処理プログラム１２２を実行することにより実現される。他の局面において、処理の一部または全部が、回路素子またはその他のハードウェアによって実行されてもよい。

ステップＳ１１０において、制御装置１０１は、上述の取得部５２（図２参照）として機能し、ユーザ端末２００から文書データＤを受信したか否かを判断する。制御装置１０１は、ユーザ端末２００から文書データＤを受信したと判断した場合（ステップＳ１１０においてＹＥＳ）、制御をステップＳ１１２に切り替える。そうでない場合には（ステップＳ１１０においてＮＯ）、制御装置１０１は、ステップＳ１１０の処理を再び実行する。

ステップＳ１１２において、制御装置１０１は、上述の分割部５４（図２参照）として機能し、ユーザ端末２００から受信した文書データＤに含まれている文字列を文単位に分割する。分割部５４の機能については上述の通りであるので、その説明については繰り返さない。

ステップＳ１１４において、制御装置１０１は、上述の分類付与部５６（図２参照）として機能し、ステップＳ１１２で分割された各文に対して様々な観点の分類を付与する。分類付与部５６の機能については上述の通りであるので、その説明については繰り返さない。

ステップＳ１１６において、制御装置１０１は、上述の並び替え部５８（図２参照）として機能し、ステップＳ１１２で分割された各文を、ステップＳ１１４で付与された分類の種別に並び替える。その結果、制御装置１０１は、上述の並び替え結果７３（図７参照）を出力する。並び替え部５８の機能については上述の通りであるので、その説明については繰り返さない。

ステップＳ１１８において、制御装置１０１は、上述の出力部６０（図２参照）として機能し、ユーザが情報を分析しやすいようにステップＳ１１６での並び替え結果７３を整えて、出力結果１３０を出力する。出力部６０の機能については上述の通りであるので、その説明については繰り返さない。制御装置１０１は、出力結果１３０をユーザ端末２００に送信する。

＜Ｆ．変形例１＞
次に、図１３～図１９を参照して、変形例に従う情報処理装置１００Ａについて説明する。図１３は、情報処理装置１００Ａの機能構成の一例を示す図である。

図１３に示される情報処理装置１００Ａは、分類付与部５６として、ラベル付与部５６Ｃと、フラグ付与部５６Ｄとを備える点で、上述の図２に示される情報処理装置１００とは異なる。ハードウェア構成などのその他の点については上述の通りであるので、以下ではそれらの説明については繰り返さない。

ラベル付与部５６Ｃは、文書データＤに含まれている各文の一部または全部に対して、企業による取り組み内容などを示すラベルを分類として付与する。ラベル付与部５６Ｃは、たとえば、異なる複数の観点で各文の概要を特定し、特定した概要の組み合わせに応じたラベルを各文に付与する。各ラベルと概要の組み合わせとの対応関係は、予め規定されていてもよいし、ユーザによって設定されてもよい。

一例として、ラベル付与部５６Ｃは、特定企業に関する記載であるか、市場に関する記載であるか、特定企業および市場以外に関する記載であるかとの観点で各文の概要を特定する。当該概要は、たとえば、上述の企業分類に基づいて特定される。

他の例として、ラベル付与部５６Ｃは、製品に関する記載であるか、サービスに関する記載であるかとの観点で各文の概要を特定する。当該概要は、たとえば、上述の商品分類に基づいて特定される。

さらに他の例として、ラベル付与部５６Ｃは、過去に関する記載であるか、未来に関する記載であるかとの観点で各文の概要を特定する。当該概要は、たとえば、文中に記載の日時に基づいて特定される。

フラグ付与部５６Ｄは、文書データＤに含まれている各文の一部または全部に対して、特定の情報が含まれていることを示すフラグを付与する。当該特定の情報は、たとえば、定量情報と、地名と、化学的元素との少なくとも１つを含む。

定量情報を例に挙げると、フラグ付与部５６Ｄは、文書データＤに含まれている各文から定量情報（たとえば、数値情報）を検索し、当該定量情報を含む文に対して定量フラグを付与する。定量情報は、企業分析に用いられる数値情報を意味する。一例として、定量情報は、企業業績を示す数値、企業または製品の売り上げなどを含む。

ラベル付与部５６Ｃによって付与されたラベルと、フラグ付与部５６Ｄによって付与された定量フラグは、出力結果１３０（図９参照）のフィルタリング条件として用いられる。

図１４は、変形例に従う入力画面２３０Ａを示す図である。ラベルおよび定量フラグに基づくフィルタリング条件は、たとえば、入力画面２３０Ａにおいて受け付けられる。入力画面２３０Ａは、たとえば、ユーザ端末２００のディスプレイ２０６に表示される。

図１４に示される入力画面２３０Ａは、入力領域２３１Ａと、ボタン２３２Ａ～２３２Ｃとをさらに備える点で、図３に示される入力画面２３０と異なる。入力領域２３１Ａおよびボタン２３２Ａ～２３２Ｃ以外の機能については上述の通りであるので、以下ではそれらの説明については繰り返さない。

入力領域２３１Ａは、ユーザが抽出したいトピックの入力を受け付ける。当該トピックは、文字列で入力される。当該トピックとしては、たとえば、「開発」、「部品調達」、「販売手法」、「工作機械受注」などが挙げられる。情報処理装置１００Ａは、入力領域２３１Ａにトピックが入力された場合には、当該トピックのいずれかを含む文を上述の出力結果１３０に含める。

ボタン２３２Ａは、文の収集目的を指定するためのボタンである。ユーザ端末２００は、ボタン２３２Ａが押されたことに基づいて、図１５に示される目的選択画面２４０を表示する。

図１５は、一例としての目的選択画面２４０を示す図である。目的選択画面２４０は、目的選択ボタン２４１Ａ～２４１Ｃと、閉じるボタン２４２とを含む。

目的選択ボタン２４１Ａが押された場合には、情報処理装置１００Ａは、上述のラベル付与部５６Ｃによって付与されたラベルの内の第１ラベルが付与されている各文を上述の出力結果１３０に含め、第１ラベル以外のラベルが付与されている各文については上述の出力結果１３０に含めない。

目的選択ボタン２４１Ｂが押された場合には、情報処理装置１００Ａは、上述のラベル付与部５６Ｃによって付与されたラベルの内の第２ラベルが付与されている各文を上述の出力結果１３０に含め、第２ラベル以外のラベルが付与されている各文については上述の出力結果１３０に含めない。

目的選択ボタン２４１Ｃが押された場合には、情報処理装置１００Ａは、定量フラグが付与されている文であり、かつ上述のラベル付与部５６Ｃによって付与されたラベルの内の第３ラベルが付与されている文を上述の出力結果１３０に含める。

ユーザが閉じるボタン２４２を押した場合には、ユーザ端末２００は、目的選択画面２４０を閉じ、図１４に示される入力画面２３０Ａに戻る。

ユーザ端末２００は、入力画面２３０Ａのボタン２３２Ｂが押されたことに基づいて、図１６に示される領域選択画面２５０を表示する。

図１６は、一例としての領域選択画面２５０を示す図である。目的選択画面２４０は、領域選択ボタン２５１Ａ～２５１Ｃと、閉じるボタン２５４とを含む。ユーザは、領域選択ボタン２５１Ａ～２５１Ｃの内の１つまたは複数の領域選択ボタンを選択することができる。

領域選択ボタン２５１Ａが選択された場合には、情報処理装置１００Ａは、上述のラベル付与部５６Ｃによって付与されたラベルの内の第４ラベルが付与されている各文を上述の出力結果１３０に含める。

領域選択ボタン２５１Ｂが選択された場合には、情報処理装置１００Ａは、上述のラベル付与部５６Ｃによって付与されたラベルの内の第５ラベルが付与されている各文を上述の出力結果１３０に含める。

領域選択ボタン２５１Ｃが選択された場合には、情報処理装置１００Ａは、上述のラベル付与部５６Ｃによって付与されたラベルの内の第６ラベルが付与されている各文を上述の出力結果１３０に含める。

ユーザが閉じるボタン２５４を押した場合には、ユーザ端末２００は、領域選択画面２５０を閉じ、図１４に示される入力画面２３０Ａに戻る。

入力画面２３０Ａのボタン２３２Ｃが押された場合には、情報処理装置１００Ａは、目的や領域で絞らずに出力結果１３０を生成する。

＜Ｇ．変形例２＞
上述では、図１に示されるステップＳ２～Ｓ４の処理が情報処理装置１００で実行される例について説明を行ったが、これらの処理は、必ずしも情報処理装置１００によって処理される必要はない。これらの処理は、ユーザ端末２００などの他のコンピュータによって実行されてもよい。

この場合、上述の情報処理プログラム１２２は、ユーザ端末２００などのコンピュータに予め配布される。これにより、図１に示されるステップＳ２～Ｓ４の処理は、ユーザ端末２００などの他のコンピュータによって実行される。このように、情報処理プログラム１２２がユーザ端末２００などのコンピュータに配布されるような場合であっても、本実施の形態に従う情報処理プログラム１２２の趣旨を逸脱するものではない。

今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。

１０情報処理システム、５２取得部、５４分割部、５６分類付与部、５６Ａ企業分類付与部、５６Ｂ商品分類付与部、５６Ｃラベル付与部、５６Ｄフラグ付与部、５８並び替え部、６０出力部、７０分割結果、７１Ａ分類結果、７１Ｂ分類結果、７２分類結果、７３並び替え結果、７３Ａ文群、７４カウント結果、７７ファイル情報、７８並び替え結果、７８Ａ文、８０Ａフィルタリングボタン、８０Ｂフィルタリングボタン、１００情報処理装置、１００Ａ情報処理装置、１０１制御装置、１０２ＲＯＭ、１０３ＲＡＭ、１０４通信インターフェイス、１０５表示インターフェイス、１０６ディスプレイ、１０７入力インターフェイス、１０８入力デバイス、１１０バス、１２０記憶装置、１２２情報処理プログラム、１２４辞書データ、１２４Ａ辞書データ、１２４Ｂ辞書データ、１２６設定データ、１３０出力結果、２００ユーザ端末、２０１制御装置、２０２ＲＯＭ、２０３ＲＡＭ、２０４通信インターフェイス、２０５表示インターフェイス、２０６ディスプレイ、２０７入力インターフェイス、２０８入力デバイス、２１０バス、２２０記憶装置、２２２情報処理プログラム、２３０入力画面、２３０Ａ入力画面、２３１入力領域、２３２Ａボタン、２３２Ｂボタン、２３２Ｃボタン、２３３Ａ受付領域、２３３Ｂ選択ボタン、２３４作成ボタン、２４０目的選択画面、２４１Ａ目的選択ボタン、２４１Ｂ目的選択ボタン、２４１Ｃ目的選択ボタン、２４２閉じるボタン、２５０領域選択画面、２５１Ａ領域選択ボタン、２５１Ｂ領域選択ボタン、２５１Ｃ領域選択ボタン、２５４閉じるボタン。

Claims

情報処理装置であって、
複数の文書データを取得するための取得部と、
前記複数の文書データに含まれている文字列を文単位に分割するための分割部と、
第１分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、組織名に関する第１分類群の内のいずれかの第１分類を付与するための分類付与部とを備え、前記分類付与部は、さらに、第２分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、商品名に関する第２分類群の内のいずれかの第２分類を付与し、
前記第１分類および前記第２分類が付与された各文を、前記第１分類の種別および前記第２分類の一方の種別に並び替えた後に、前記第１分類の種別および前記第２分類の他方の種別に並び替えるための並び替え部と、
前記並び替え部によって並び替えられた各文を出力するための出力部とを備え、
前記出力部は、前記並び替え部による並び替え前における文の並び順が連続している文群であり、かつ、同種の第１分類および同種の第２分類が付与されている文群については、当該文群を統合して出力する、情報処理装置。
前記第２分類群が属するカテゴリーは、前記第１分類群が属するカテゴリーとは異なり、
前記並び替え部は、さらに、同種の第１分類が付与されている文の集合ごとに、前記第２分類が付与された各文を、前記第２分類の種別に並び替える、請求項１に記載の情報処理装置。
前記並び替え部は、前記第１分類の付与数を前記第１分類の種別にカウントし、前記第１分類が付与された各文を前記付与数が多い順に並び替える、請求項１または２に記載の情報処理装置。
コンピュータによって実行される情報処理方法であって、
複数の文書データを取得するステップと、
前記複数の文書データに含まれている文字列を文単位に分割するステップと、
第１分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、組織名に関する第１分類群の内のいずれかの第１分類を付与するステップとを備え、前記付与するステップは、さらに、第２分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、商品名に関する第２分類群の内のいずれかの第２分類を付与するステップを含み、
前記第１分類および前記第２分類が付与された各文を、前記第１分類の種別および前記第２分類の一方の種別に並び替えた後に、前記第１分類の種別および前記第２分類の他方の種別に並び替えるステップと、
前記並び替えるステップで並び替えられた各文を出力するステップとを備え、
前記出力するステップは、前記並び替えるステップでの並び替え前における文の並び順が連続している文群であり、かつ、同種の第１分類および同種の第２分類が付与されている文群については、当該文群を統合して出力するステップを含む、情報処理方法。
コンピュータによって実行される情報処理プログラムであって、
前記情報処理プログラムは、前記コンピュータに、
複数の文書データを取得するステップと、
前記複数の文書データに含まれている文字列を文単位に分割するステップと、
第１分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、組織名に関する第１分類群の内のいずれかの第１分類を付与するステップとを備え、前記付与するステップは、さらに、第２分類アルゴリズムに従って、前記文単位に分割された複数の文の全部または一部の各文に、商品名に関する第２分類群の内のいずれかの第２分類を付与するステップを含み、
前記第１分類および前記第２分類が付与された各文を、前記第１分類の種別および前記第２分類の一方の種別に並び替えた後に、前記第１分類の種別および前記第２分類の他方の種別に並び替えるステップと、
前記並び替えるステップで並び替えられた各文を出力するステップとを実行させ、
前記出力するステップは、前記並び替えるステップでの並び替え前における文の並び順が連続している文群であり、かつ、同種の第１分類および同種の第２分類が付与されている文群については、当該文群を統合して出力するステップを含む、情報処理プログラム。