JP7364512B2

JP7364512B2 - ラベル付与モデル生成装置、及びラベル付与モデル生成方法

Info

Publication number: JP7364512B2
Application number: JP2020054490A
Authority: JP
Inventors: 琢也小田; 美智子田中
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2023-10-18
Anticipated expiration: 2040-03-25
Also published as: JP2021157282A; US11610062B2; US20210303789A1

Description

本発明は、ラベル付与モデル生成装置、及びラベル付与モデル生成方法に関する。

特許文献１には、文書に含まれる名称を分類する分類器の学習データを生成する学習データ生成方法に関して記載されている。上記学習データ生成方法では、抽出する処理と、評価する処理と、置換する処理とをコンピュータが実行する。抽出する処理は、分類にかかる名称の判別候補に正例または負例が付与された学習データについて、判別候補に含まれる特徴素を抽出する。評価する処理は、正例または負例における、抽出した特徴素の偏り度合いを評価する。置換する処理は、評価した偏り度合いに応じて判別候補の名称を、名称に対応付けて記憶部に記憶された別名称に置換する。

特開２０１９－１６０２３６号公報

特許文献１に記載されているように、文書検索における検索精度の向上等を目的として、検索対象となる文書に含まれている単語にラベルを付与することが行われている。ラベルの付与を効率よく行うためには、機械学習モデルを利用することが有効であるが、その場合、モデルの精度を確保するために質のよい学習データを用意する必要がある。

特許文献１では、分類にかかる名称の判別候補に正例または負例が付与された学習データについて、判別候補に含まれる特徴素を抽出し、正例または負例における、抽出した特徴素の偏り度合いを評価し、評価した偏り度合いに応じて判別候補の名称を、名称に対応付けて記憶部に記憶された別名称に置換している。

しかし特許文献１では、分類器の特性に影響を与える可能性のある因子である、共通の特徴素を有する単語が複数存在する場合における各単語の数の偏りについては考慮されていない。

本発明は、上記事情に鑑みなされたものであり、その目的は、文書に含まれている単語に適切なラベルを付与することが可能な、ラベル付与モデル生成装置及びラベル付与モデル生成方法を提供することにある。

上記目的を達成するための本発明の一つは、対象とする文書である対象文書に含まれている単語にラベルを付与する機械学習モデルであるラベル付与モデルを生成する情報処理装置であるラベル付与モデル生成装置であって、前記ラベル付与モデルは、付与しようとする複数のラベルの夫々について、ラベルと、当該ラベルの付与対象となるために単語が有するべき特徴量である特徴量と、前記特徴量を有する単語に対して当該ラベルを付与するか否かの判断指標であるスコアとを対応づけた情報を含み、対象文書に含まれている単語へのラベルの付与は、前記文書から抽出される単語と当該単語について抽出される特徴量との組合せを前記ラベル付与モデルに与えることにより取得される前記スコアに基づき行われ、前記ラベル付与モデルの生成に用いる複数の学習用文書を記憶し、各前記学習用文書において共通の前記特徴量を有する単語の出現頻度の偏差である単語数偏差に基づき前記学習用文書単位で前記スコアを求めることにより前記ラベル付与モデルを生成する。

その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。

本発明によれば、文書に含まれている単語に適切なラベルを付与することができる。

文書検索システムの概略的な構成を示すブロック図である。文書検索システムの概略的な機能を説明するシステムフロー図である。文書検索装置等の構成に用いる情報処理装置の一例を示すブロック図である。モデル生成装置が備える主な機能を説明するシステムフロー図である。ラベル対象単語リストの一例である。特徴量テーブルの一例である。特徴量偏差テーブルの一例である。単語数偏差テーブルの一例である。偏差調整テーブルの一例である。偏差確認画面の一例である。調整設定画面の一例である。ラベル付与モデルの一例である。ラベル付与装置が備える主な機能を説明するシステムフロー図である。単語／特徴量テーブルの一例である。単語／ラベルテーブルの一例である。文書検索装置が備える主な機能を説明するシステムフロー図である。

以下、実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成について同一の符号を付して重複した説明を省略することがある。また以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。また本発明は、他の種々の形態でも実施する事が可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。また以下の説明では、「テーブル」という表現にて各種情報を説明するが、各種情報は、これら以外のデータ構造で表現されていてもよい。また識別情報について説明する際、「識別子」、「ＩＤ」等の表現を適宜用いるが、これらについてはお互いに置換可能である。

図１は、一実施形態として示す情報処理システム（以下、「文書検索システム１」と称する。）の概略的な構成を示す図である。同図に示すように、文書検索システム１は、モデル生成装置１００、ラベル付与装置２００、文書検索装置３００、ユーザ装置２、及び管理装置３を含む。これらの装置はいずれも情報処理装置（コンピュータ）を用いて構成されている。尚、これら装置の全部または一部を共通の情報処理装置によって実現してもよい。例えば、モデル生成装置１００、ラベル付与装置２００、及び管理装置３を、共通の情報処理装置で実現してもよい。また文書検索装置３００とユーザ装置２を、共通の情報処理装置で実現してもよい。

モデル生成装置１００、ラベル付与装置２００、文書検索装置３００、及び管理装置３は、第１通信ネットワーク５を介して通信可能に接続されている。文書検索装置３００とユーザ装置２は、第２通信ネットワーク６を介して通信可能に接続されている。第１通信ネットワーク５と第２通信ネットワーク６は共通の通信ネットワークであってもよい。

第１通信ネットワーク及び第２通信ネットワーク６は、有線方式または無線方式の通信基盤であり、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、
ＷｉＦｉ（登録商標）、インターネット、専用線、各種データ通信網等である。第１通信
ネットワーク及び第２通信ネットワーク６は、種類の異なる通信基盤を組み合わせたものでもよい。

ユーザ装置２は、文書検索装置３００を利用するユーザが操作する情報処理装置である。また管理装置３は、文書検索システム１の管理者が操作する情報処理装置である。ユーザと管理者は共通でもよい。

図２は、文書検索システム１の概略的な機能を説明するシステムフロー図である。同図に示すように、文書検索装置３００は、テキストデータ等の所定のデータ形式で記述された多数の文書群である文書データ（ラベル付与済）２１５を検索対象として、ユーザ装置２から送られてくる検索条件（クエリ）による検索処理を実行し、検索結果をユーザ装置２に返す。

文書データ（ラベル付与済）２１５は、ラベルの付与対象の文書データである文書データ（ラベル無し）２１１に含まれている単語についてラベル付与装置２００がラベルを付与することにより生成される。ラベル付与装置２００は、機械学習モデルであるラベル付与モデル１１７を用いて文書データ（ラベル無し）２１１に含まれている単語にラベルを付与することにより、単語とラベルを対応付けた情報が付帯する文書データ（ラベル付与済）２１５を生成する。

モデル生成装置１００は、ラベル付与モデル１１７を生成する情報処理装置である。モデル生成装置１００は、付与しようとするラベルと、当該ラベルの付与対象となる一つ以上の単語のセットを含む情報である、ラベル対象単語リスト１１１と、学習用に用意される、特徴量の抽出元の文書データである学習用文書データ（ラベル無し）１１２とに基づき、ラベル付与モデル１１７を生成する。具体的には、モデル生成装置１００は、ラベル対象単語リスト１１１の各単語について、例えば、公知の特徴量抽出アルゴリズムにより学習用文書データ（ラベル無し）１１２から特徴量を抽出し、抽出した各特徴量について夫々の文書中における出現頻度をスコアリングすることにより得られる確率モデルをラベル付与モデル１１７として生成する。

ラベル対象単語リスト１１１及び学習用文書データ（ラベル無し）１１２は、例えば、管理者が管理装置３を介して入力する。ラベル対象単語リスト１１１は、例えば、管理者やユーザ等の人が作成してもよいし、公知のラベル抽出手法（トピックモデルを用いる方法等）によって自動生成してもよい。後者の学習用文書データ（ラベル無し）１１２は、例えば、文書検索装置３００のユーザが従事する業務分野に関連する文書の文書データである。

図３に、モデル生成装置１００、ラベル付与装置２０００、文書検索装置３００、ユーザ装置２、及び管理装置３の夫々の実現に用いる情報処理装置のハードウェア構成の一例を示す。同図に示すように、例示する情報処理装置１０は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、入力装置１４、出力装置１５、及び通信装置１６を備える。

尚、情報処理装置１０は、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また情報処理装置１０によって提供される機能の全部または一部を、例えば、クラウドシステムがＡＰＩ（Application Programming Interface）等を介して提供するサービスによって実現してもよい
。

プロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Pro
cessing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable
Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＡＩ（Artificial Intelligence）チップ等を用いて構成されている。

主記憶装置１２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Read
Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。

補助記憶装置１３は、例えば、ハードディスクドライブ、ＳＳＤ（Solid State Drive
）、光学式記憶装置（ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等）、ストレージシステム、ＩＣカード、ＳＤカードや光学式記録媒体等の記録媒体の読取／書込装置、クラウドサーバの記憶領域等である。補助記憶装置１３には、記録媒体の読取装置や通信装置１６を介してプログラムやデータを読み込むことができる。補助記憶装置１３に格納（記憶）されているプログラムやデータは主記憶装置１２に随時読み込まれる。

入力装置１４は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。

出力装置１５は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置１５は、例えば、上記の各種情報を可視化する表示装置（液晶モニタ、ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）、上記の各種情報を音声化する装置（音声出力装置（スピーカ等））、上記の各種情報を文字化する装置（印字装置等）である。尚、例えば、情報処理装置１０が通信装置１６を介して他の装置との間で情報の入力や出力を行う構成としてもよい。

通信装置１６は、他の装置との間の通信を実現する装置である。通信装置１６は、第１通信ネットワーク５や第２通信ネットワーク６を介した他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、無線通信モジュール、ＵＳＢモジュール等である。

モデル生成装置１００、ラベル付与装置２００、文書検索装置３００、ユーザ装置２、及び管理装置３の夫々には、例えば、オペレーティングシステム、ファイルシステム、ＤＢＭＳ（DataBase Management System）（リレーショナルデータベース、ＮｏＳＱＬ等）、ＫＶＳ（Key-Value Store）等が導入されていてもよい。

モデル生成装置１００、ラベル付与装置２００、文書検索装置３００、ユーザ装置２、及び管理装置３の夫々の機能は、プロセッサ１１が、主記憶装置１２に格納されているプログラムを読み出して実行することにより、もしくは、これらの装置を構成するハードウェア（ＦＰＧＡ、ＡＳＩＣ、ＡＩチップ等）によって実現される。

図４は、モデル生成装置１００が備える主な機能を説明するシステムフロー図である。同図に示すように、モデル生成装置１００は、記憶部１１０、情報受付部１２０、自然言語解析部１２５、単語検出／特徴量抽出部１３０、偏差調整テーブル生成部１３５、偏差調整部１４０、ラベル付与モデル生成部１５０、及びモデル送信部１６０の各機能を備える。

記憶部１１０は、ラベル対象単語リスト１１１、学習用文書データ（ラベル無し）１１２、中間テーブル（特徴量テーブル１１３、特徴量偏差テーブル１１４、単語数偏差テーブル１１５）、偏差調整テーブル１１６、及びラベル付与モデル１１７を記憶する。記憶
部１１０は、例えば、ＤＢＭＳが提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報（データ）を記憶する。

情報受付部１２０は、管理装置３を介して管理者からラベル対象単語リスト１１１及び学習用文書データ（ラベル無し）１１２の入力を受け付け、受け付けたこれらの情報を記憶部１１０が記憶する。

図５にラベル対象単語リスト１１１の一例を示す。同図に示すように、ラベル対象単語リスト１１１は、ラベルＩＤ１１１１、ラベル１１１２、単語ＩＤ１１１３、及び単語１１１４の各項目を対応づけた複数のエントリ（レコード）で構成される。

上記項目のうち、ラベルＩＤ１１１１には、単語に付与するラベルの識別子であるラベルＩＤが設定される。ラベル１１１２には、ラベルが設定される。単語ＩＤ１１１３には、単語の識別子である単語ＩＤが設定される。単語１１１４には、ラベルの付与対象となる単語が設定される。

図４に戻り、自然言語解析部１２５は、学習用文書データ（ラベル無し）１１２に含まれている文書（文章）を、形態素解析（文節構造モデルや確率的言語モデルによる方法、点予測による等）等の自然言語解析処理を行うことにより形態素に分割し、各形態素に品詞等の情報を割り当てることにより、単語検出／特徴量抽出部１３０による単語検出が可能な状態とする。

単語検出／特徴量抽出部１３０は、ラベル対象単語リスト１１１に含まれている各単語を学習用文書データ（ラベル無し）１１２から検出し、検出した各単語について、公知の特徴量抽出アルゴリズムを適用することにより、学習用文書データ（ラベル無し）１１２から各単語に関する特徴量を抽出する。抽出する特徴量は、例えば、当該単語の接頭辞や接尾辞に関するもの、当該単語の周辺に表れる単語（共起語）に関するもの、当該単語の周辺の文脈や文構造に関するもの等である。尚、以上の検出及び抽出は、ラベル単位かつ文書単位で行われる。記憶部１１０は、上記抽出の結果を、中間テーブル（特徴量テーブル１１３、特徴量偏差テーブル１１４、単語数偏差テーブル１１５）として記憶する。

図６に上記中間テーブルの一つである特徴量テーブル１１３の一例を示す。特徴量テーブル１１３には、ラベル対象単語リスト１１１の各単語について特徴量を抽出した結果が管理される。

同図に示すように、特徴量テーブル１１３は、ラベルＩＤ１１３１、文書ＩＤ１１３２、頁番号１１３３、文ＩＤ１１３４、単語ＩＤ１１３５、単語１１３６、特徴量ＩＤ１１３７、及び特徴量１１３８の各項目を対応づけた複数のエントリ（レコード）で構成される。

上記項目のうち、ラベルＩＤ１１３１には、ラベルＩＤが設定される。文書ＩＤ１１３２には、文書（文書データ）の識別子である文書ＩＤが設定される。頁番号１１３３には、当該文書における頁番号が設定される。文ＩＤ１１３４には、当該文書を構成する各文に付与される識別子である文ＩＤが設定される。単語ＩＤ１１３５には、単語ＩＤが設定される。単語１１３６には、当該ラベルが付与される単語が設定される。特徴量１１３７には、当該単語について当該文書から抽出された特徴量の識別子である特徴量ＩＤが設定される。特徴量１１３８には、当該文書から抽出された特徴量が設定される。

図７に上記中間テーブルの一つである特徴量偏差テーブル１１４の一例を示す。特徴量偏差テーブル１１４には、ラベル毎、文書毎の、各特徴量の偏差（当該文書中の当該ラベ
ルについて抽出された各特徴量の出現回数の偏差）が管理される。

同図に示すように、特徴量偏差テーブル１１４は、ラベルＩＤ１１４１、文書ＩＤ１１４２、特徴量ＩＤ１１４３、出現回数１１４４、及び特徴量偏差１１４５の各項目を対応づけた複数のエントリ（レコード）で構成される。

上記項目のうち、ラベルＩＤ１１４１には、ラベルＩＤが設定される。文書ＩＤ１１４２には、文書ＩＤが設定される。特徴量ＩＤ１１４３には、特徴量ＩＤが設定される。出現回数１１４４には、当該文書中の当該特徴量の出現回数が設定される。特徴量偏差１１４５には、当該ラベル、当該文書についての、各特徴量の偏差（当該文書中の当該ラベルについて抽出された各特徴量の出現回数の偏差。以下、「特徴量偏差」と称する。）が設定される。本例では、特徴量偏差の基準値を「60」に設定している。尚、本実施形態では、特徴量のラベル付与モデル１１７への影響度を示す指標として出現回数１１４４を用いるが、特徴量の影響度は、他の因子（例えば、特徴量の抽出に用いた単語と共起語の類似度等）に基づく値としてもよい。

図８に上記中間テーブルの一つである単語数偏差テーブル１１５の一例を示す。単語数偏差テーブル１１５には、ラベル毎、文書毎、特徴量毎の、単語数の偏差（当該文書において当該特徴量を有する当該ラベルの各単語のヒット件数の偏差）が管理される。

同図に示すように、単語数偏差テーブル１１５は、ラベルＩＤ１１５１、文書ＩＤ１１５２、特徴量ＩＤ１１５３、単語ＩＤ１１５４、ヒット件数１１５５、及び単語数偏差１１５６の各項目を対応づけた複数のエントリ（レコード）で構成される。

上記項目のうち、ラベルＩＤ１１５１には、ラベルＩＤが設定される。文書ＩＤ１１５２には、文書ＩＤが設定される。特徴量ＩＤ１１５３には、特徴量ＩＤが設定される。単語ＩＤ１１５４には、単語ＩＤが設定される。ヒット件数１１５５には、当該文書において当該特徴量を有する当該ラベルの各単語のヒット件数が設定される。単語数偏差１１５６には、各単語の上記ヒット件数の偏差（当該文書中の当該特徴量を有する当該ラベルの各単語のヒット件数の偏差。以下、「単語数偏差」と称する。）が設定される。本例では、単語数偏差の基準値を「5」に設定している。

図４に戻り、偏差調整テーブル生成部１３５は、中間テーブル（特徴量テーブル１１３、特徴量偏差テーブル１１４、単語数偏差テーブル１１５）に基づき、偏差調整テーブル１１６を生成する。

図９に偏差調整テーブル１１６の一例を示す。偏差調整テーブル１１６には、ラベル毎、文書毎、特徴量毎、単語毎に設定される、特徴量の重み（以下、「特徴量重み」と称する。）と単語数の重み（以下、「単語数重み」と称する。）と、これらの重みを反映して求めた、ラベル毎、文書毎、特徴量毎、単語毎のスコアが管理される。

同図に示すように、偏差調整テーブル１１６は、ラベルＩＤ１１６１、文書ＩＤ１１６２、特徴量ＩＤ１１６３、単語ＩＤ１１６４、特徴量偏差１１６５、特徴量重み１１６６、単語数偏差１１６７、単語数重み１１６８、及びスコア１１６９の各項目を対応づけた複数のエントリ（レコード）で構成される。

上記項目のうち、ラベルＩＤ１１６１には、ラベルＩＤが設定される。文書ＩＤ１１６２には、文書ＩＤが設定される。特徴量ＩＤ１１６３には、特徴量ＩＤが設定される。単語ＩＤ１１６４には、単語ＩＤが設定される。

特徴量偏差１１６５には、特徴量偏差テーブル１１４の特徴量偏差１１４５の値（特徴量偏差）が設定される。特徴量重み１１６６には、当該特徴量について設定される（特徴量単位で設定される）特徴量重みが設定される。尚、後述するように、特徴量重みは管理者が手動で調節することもできる。特徴量偏差１１６５には、例えば、デフォルト値として「1.0」が設定される。

単語数偏差１１６７には、単語数偏差テーブル１１５の単語数偏差１１５６の値（単語数偏差）が設定される。単語数重み１１６８には、当該特徴量の当該単語について設定される（単語単位で設定される）単語数重みが設定される。尚、後述するように、単語数重みは管理者が手動で調節することもできる。単語数偏差１１６７には、例えば、デフォルト値として「1.0」が設定る。

スコア１１６９には、特徴量偏差１１６５の値を「ａ」、特徴量重み１１６６の値を「ｂ」、単語数偏差１１６７の値を「ｃ」、単語数重み１１６８の値を「ｄ」として、ａ×ｂ＋ｃ×ｄから求められる値（以下、「スコア」と称する。）が設定される。尚、このスコアは、前述した確率モデル（ラベル付与モデル）の生成に用いられる。

図４に戻り、偏差調整部１４０は、偏差調整テーブル１１６の内容を調整する。偏差調整部１４０は、まず次の判定基準（判定条件）に基づき、調整の要否をラベル毎に判定する。

判定基準１：共通の特徴量を有する単語が抽出元の文書に複数存在し、それら複数の単語の数に大きな偏りがあるか（共通の特徴量を有する単語のうち単語数偏差が第１閾値を超えるもの（以下、「特定の単語」と称する。）が第２閾値以下の割合で存在するか）。

判定基準２：複数の特徴量の夫々の出現頻度に大きな偏りがあるか（特徴量偏差が第３閾値を超える特徴量（以下、「特定の特徴量」と称する。）が第４閾値以下の割合で存在するか）。

尚、上記の各判定基準における各閾値は、例えば、管理者によって予め設定されているものとする。続いて、偏差調整部１４０は、上記いずれかの判定基準を満たすラベルがあれば、当該ラベルについて以下のいずれかの方法により偏差調整テーブル１１６の内容を調整する。

調整方法１：上記いずれかの判定基準を満たす要因となっている文書を除外して偏差調整テーブル１１６を生成し直す。尚、要因となっている文書は、判定基準１の場合は、例えば、特定の単語の抽出元の文書であり、判定基準２の場合は、例えば、特定の特徴量の抽出元の文書である。

調整方法２：判定基準１を満たすラベルについて、共通の特徴量を有する単語の単語数重みを調整する（例えば、上記特定の単語の単語数重みを減らす）。

調整方法３：判定基準２を満たすラベルについて、抽出された特徴量の特徴量重みを調整する（例えば、上記特定の特徴量の特徴量重みを減らす）。

尚、以上に示した偏差調整テーブル１１６の調整は、例えば、ソフトウェアにより自動的に行ってもよい。また例えば、以下に説明するように、管理者との間での対話処理により偏差調整テーブル１１６の内容を調整するようにしてもよい。

図１０は、対話処理で偏差調整テーブル１１６の調整を行う場合に偏差調整部１４０が
管理装置３に表示する画面（以下、「偏差確認画面１０００」と称する。）の一例である。同図に示すように、例示する偏差確認画面１０００は、ラベル指定欄１０１１、単語数／特徴量偏差表示欄１０１２、及び偏差調整ボタン１０１４を含む。

このうちラベル指定欄１０１１には、管理者が、内容を確認しようとする偏差調整テーブル１１６のラベルを指定する。指定されたラベルのことを以下、「指定ラベル」と称する。

単語数／特徴量偏差表示欄１０１２には、指定ラベルについての偏差調整テーブル１１６の内容が視覚的に表示される。本例では、単語数／特徴量偏差表示欄１０１２に、偏差調整テーブル１１６の内容が、文書（文書ＩＤ）毎に、夫々から検出された単語数又は抽出された特徴量数を示す棒グラフ１０１３が表示されている。また各棒グラフ１０１３には、文書毎の、抽出した複数の特徴量の夫々の出現頻度と各特徴量を有する単語の数が、夫々の割合に応じた面積で視覚的に描画されている。管理者は、この棒グラフ１０１３から、単語数偏差や特徴量偏差の様子を容易に把握することができる。例えば、例示する棒グラフ１０１３の場合、管理者は、文書ＩＤが「１」の文書は「特徴量１」の特徴量偏差が他の文書に比べて大きいことや、文書ＩＤが「１」の文書は「特徴量１」における「単語Ａ」の単語数偏差が当該特徴量における他の単語の偏差よりも大きいこと等を容易に把握することができる。尚、偏差確認画面１０００に、偏差調整テーブル１１６の内容をテーブル形式で表示するようにしてもよい。

管理者は、偏差調整テーブル１１６の内容を調整する場合、偏差調整ボタン１０１４を操作する。

図１１は、管理者が偏差調整ボタン１０１４を操作した場合に偏差調整部１４０が管理装置３に表示する画面（以下、「調整設定画面１１００」と称する。）の一例である。同図に示すように、例示する調整設定画面１１００は、指定ラベル表示欄１１０１、文書除外指定欄１１１０、単語数偏差調整欄１１２０、特徴量偏差調整欄１１３０、スコア表示欄１１４０、決定ボタン１１９１、及びキャンセルボタン１１９２を含む。

指定ラベル表示欄１１０１には、偏差確認画面１０００で指定されたラベル（指定ラベル）が表示される。

文書除外指定欄１１１０は、特定の文書を除外することにより偏差調整テーブル１１６の内容を調整する場合（前述した調整方法１で調整する場合）に用いられる。同図に示すように、文書除外指定欄１１１０は、除外有無設定欄１１１１及び文書指定欄１１１５を含む。

管理者は、文書を除外することにより偏差調整テーブル１１６の内容を調整する場合、文書除外指定欄１１１０の「しない」をチェックし、文書指定欄１１１５を利用して除外する文書の文書ＩＤを指定する。管理者は、例えば、前述の第１閾値を超えるような単語数偏差を生じさせている要因となっている文書や、前記の第３閾値を超えるような特徴量偏差を生じさせている要因となっている文書を文書指定欄１１１５に指定する。尚、除外する文書は複数指定することもできる。

単語数偏差調整欄１１２０は、単語数偏差を調整することにより偏差調整テーブル１１６の内容を調整する場合（前述した調整方法２で調整を行う場合）に用いられる。同図に示すように、単語数偏差調整欄１１２０は、特徴量指定欄１１２１、単語指定欄１１２２、及び単語数重み調整欄１１２４を含む。管理者は、特徴量指定欄１１２１に特徴量（特徴量ＩＤ）を指定し、単語指定欄１１２２に単語（単語ＩＤ）を指定し、当該単語につい
ての当該特徴量における単語数重みを単語数重み調整欄１１２４に指定する。単語数偏差調整欄１１２０には、特徴量（特徴量ＩＤ）と単語（単語ＩＤ）の一つ以上の組み合わせの夫々について、単語数偏差の調整量を個別に指定することができる。単語数重み調整欄１１２４は、逆三角形のアイコン１１２３をスライドさせることで単語数重みを容易に指定できるようになっている。アイコン１１２３を右に置くほど単語数重みは大きくなる。アイコン１１２３を左端に置くと単語数重みは「0.0」に設定され、アイコン１１２３を
右端に置くと単語数重みは「1.0」に設定される。

特徴量偏差調整欄１１３０は、特徴量偏差を調整することにより偏差調整テーブル１１６の内容を調整する場合（前述した調整方法３で調整を行う場合）に用いられる。同図に示すように、特徴量偏差調整欄１１３０は、文書指定欄１１３１、特徴量指定欄１１３２、及び特徴量重み調整欄１１３３を含む。管理者は、文書指定欄１１３１に文書（文書ＩＤ）を指定し、特徴量指定欄１１３２に特徴量（特徴量ＩＤ）を指定し、当該文書についての当該特徴量の特徴量重みを特徴量重み調整欄１１３３に指定する。特徴量偏差調整欄１１３０には、文書（文章ＩＤ）と特徴量（特徴量ＩＤ）の一つ以上の組み合わせの夫々について、特徴量偏差の調整量を個別に指定することができる。特徴量重み調整欄１１３３は、逆三角形のアイコン１１３４をスライドさせることで特徴量重みを容易に指定できるようになっている。アイコン１１２３を右に置くほど単語数重みは大きくなる。アイコン１１３４を左端に置くと特徴量重みは「0.0」に設定され、アイコン１１３４を右端に
置くと特徴量重みは「1.0」に設定される。

以上のように、管理者は、調整設定画面１１００を利用して、調整方法１～３のいずれかによる方法で偏差調整テーブル１１６の内容を容易かつ柔軟に調整することができる。尚、文書除外指定欄１１１０、単語数偏差調整欄１１２０、及び特徴量偏差調整欄１１３０は、内容に矛盾が生じない範囲でこれらの２つ以上を同時に併用することも可能である。その場合、各欄に設定された内容がアンド（＆）条件で適用された上でスコアが算出される。

図１１のスコア表示欄１１４０には、文書除外指定欄１１１０、単語数偏差調整欄１１２０、及び特徴量偏差調整欄１１３０に指定された内容に基づき求められた、当該ラベルの文書（文書ＩＤ）毎のスコアが棒グラフ１１４１で表示される。棒グラフ１１４１には、当該スコアにおける各特徴量や各単語の貢献度を示す情報が視覚的に表示される。

以上のようにして調整された内容は、偏差調整部１４０によって偏差調整テーブル１１６に反映される。

図４に戻り、続いて、ラベル付与モデル生成部１５０が、偏差調整テーブル１１６に基づきラベル付与モデル１１７を生成する。

図１２に、ラベル付与モデル１１７の一例を示す。例示するラベル付与モデル１１７は、ラベルＩＤ１１７１、ラベル１１７２、特徴量ＩＤ１１７３、特徴量１１７４、及びスコア１１７５の各項目からなる複数のエントリ（レコード）で構成される。例示するラベル付与モデル１１７は、ラベルＩＤ１１７１で特定される各ラベルについての複数のラベル付与モデルを含む。

上記項目のうち、ラベルＩＤ１１７１には、ラベルＩＤが設定される。ラベル１１７２には、ラベルが設定される。特徴量ＩＤ１１７３には、特徴量ＩＤが設定される。特徴量１１７４には、特徴量が設定される。スコア１１７５には、偏差調整テーブル１１６のスコア１１６９の値を当該特徴量について合計した値が設定される。

図４に戻り、続いて、モデル送信部１６０が、生成されたラベル付与モデル１１７をラベル付与装置２００に送信する。

図１３は、図１に示したラベル付与装置２００が備える主な機能を説明するシステムフロー図である。同図に示すように、ラベル付与装置２００は、記憶部２１０、情報受付部２２０、自然言語解析部２２５、単語検出／特徴量抽出部２３０、モデル受信部２３５、ラベル付与部２４０、ラベル編集部２５０、及び文書データ（ラベル付与済）生成送信部２６０の各機能を備える。

記憶部２１０は、文書データ（ラベル無し）２１１、ラベル付与モデル１１７、単語／特徴量テーブル２１３、単語／ラベルテーブル２１４、及び文書データ（ラベル付与済）２１５を記憶する。記憶部２１０は、例えば、ＤＢＭＳが提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報（データ）を記憶する。

情報受付部２２０は、管理装置３を介して管理者から文書データ（ラベル付与対象）を受け付ける。受け付けた文書データ（ラベル付与対象）は、記憶部２１０が文書データ（ラベル無し）２１１として記憶する。

自然言語解析部２２５は、文書データ（ラベル無し）２１１に含まれている文書（文章）を、形態素解析（文節構造モデルや確率的言語モデルによる方法、点予測による等）等の自然言語解析処理を行って形態素に分割し、各形態素に品詞等の情報を割り当て、単語検出／特徴量抽出部２３０による単語検出が可能な状態にする。

単語検出／特徴量抽出部２３０は、自然言語解析部２２５による解析結果に基づき、文書データ（ラベル無し）２１１に含まれている単語を検出し、検出した単語について、例えば、公知の特徴量抽出アルゴリズムにより文書データ（ラベル無し）２１１から当該単語に関する特徴量を抽出する。抽出する特徴量は、例えば、当該単語の接頭辞や接尾辞に関するもの、当該単語の周辺に表れる単語（共起語）に関するもの、当該単語の周辺の文脈や文構造に関するもの等である。単語検出／特徴量抽出部２３０が抽出した特徴量は、記憶部２１０が単語／特徴量テーブル２１３として記憶する。

図１４に単語／特徴量テーブル２１３の一例を示す。同図に示すように、単語／特徴量テーブル２１３は、単語２１３１及び特徴量２１３２の各項目を有する複数のエントリ（レコード）で構成される。上記項目のうち、単語２１３１には、単語検出／特徴量抽出部２３０が文書データ（ラベル無し）２１１から検出した単語が設定される。特徴量２１３２には、単語検出／特徴量抽出部２３０が当該単語について文書データ（ラベル無し）２１１から抽出した特徴量が設定される。

図１３に戻り、ラベル付与部２４０は、単語／特徴量テーブル２１３にラベル付与モデル１１７を適用することにより、単語検出／特徴量抽出部２３０が文書データ（ラベル無し）２１１から検出した単語にラベルを付与し、単語とラベルとの対応を示すデータである単語／ラベルテーブルを生成する。ラベル付与部２４０が生成した単語／ラベルテーブルは、記憶部２１０が単語／ラベルテーブル２１４として記憶する。

例えば、ラベル付与モデル１１７が図１２に示す内容であり、単語／特徴量テーブル２１３が図１４に示す内容である場合、単語／特徴量テーブル２１３の単語２１３１「Ｍ加工機」は、特徴量２１３２「終端文字＝”機”」、「先頭文字＝”Ｍ”」がラベル付与モデルのラベルＩＤ１１７１「L0001」の特徴量１１７４と一致している。この場合、ラベ
ル付与部２４０は、ラベル付与モデル１１７のスコア「0．3024」と「0．0901」を合計し
た値「0.4105」が、予め設定された閾値を超えるか否かにより、当該単語「Ｍ加工機」にラベルを設定するか否かを判定し、上記閾値を超えていれば、ラベル１１７２「工作機械」を設定する。

図１５に単語／ラベルテーブル２１４の一例を示す。同図に示すように、単語／ラベルテーブル２１４は、単語２１４１及びラベル２１４２の各項目を有する複数のエントリ（レコード）で構成される。上記項目のうち単語２１４１には、単語検出／特徴量抽出部２３０が文書データ（ラベル無し）２１１から検出した単語が設定される。ラベル２１４２には、ラベル付与部２４０が当該単語に付与したラベルが設定される。

図１３に戻り、ラベル編集部２５０は、管理装置３を介して、単語／ラベルテーブル２１４の編集環境を管理者に提供する。管理者は、上記編集環境を利用して対話形式で単語／ラベルテーブル２１４の内容の調整を容易に行うことができる。

文書データ（ラベル付与済）生成送信部２６０は、文書データ（ラベル無し）２１１に単語／ラベルテーブル２１４を付帯させたデータ（文書データ（ラベル付与済）２１５）を生成し、生成した文書データ（ラベル付与済）２１５を文書検索装置３００に送信する。

図１６は、図１に示した文書検索装置３００が備える主な機能を説明するシステムフロー図である。同図に示すように、文書検索装置３００は、記憶部３１０、文書データ（ラベル付与済）受信部３２０、検索条件受付部３３０、検索処理部３４０、及び検索結果出力部３５０の各機能を備える。

記憶部３１０は、文書データ（ラベル付与済）２１５を記憶する。記憶部３１０は、例えば、ＤＢＭＳが提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、文書データ（ラベル付与済）２１５を記憶する。

文書データ（ラベル付与済）受信部３２０は、ラベル付与装置２００から送られてくる、単語／ラベルテーブル２１４が付帯する文書データ（ラベル付与済）２１５を受信し、記憶部３１０が、単語／ラベルテーブル２１４とともに文書データ（ラベル付与済）２１５として記憶する。

検索条件受付部３３０は、ユーザ装置２を介してユーザが入力する検索条件（クエリ）を受け付ける。

検索処理部３４０は、上記検索条件（クエリ）に該当する情報を文書データ（ラベル付与済）２１５から検索する。このとき、検索処理部３４０は、文書データ（ラベル付与済）２１５に付帯する単語／ラベルテーブル２１４を利用して上記の検索を行う。例えば、検索条件としてある単語が指定されている場合、当該単語が属するラベルと同じラベルに属する単語を含む情報を、文書データ（ラベル付与済）２１５から検索する。このようにユーザが指定した検索語だけでなく、ユーザが指定した検索語と同じラベルが付与された単語（同じカテゴリに属する単語）についても検索キーワードに含めることで、多面的な観点に基づく検索結果をユーザに提供することができる。

以上に説明したように、本実施形態の文書検索システム１は、偏差調整テーブル１１６において共通の特徴量を有する単語が複数存在する場合における各単語の数の偏りを考慮してラベル付与モデル１１７を生成するので、例えば、学習用文書データ（ラベル無し）１１２の態様に応じて、ラベル付与モデル１１７が目的とする性能や精度になるように調整することができる。そして、調整されたラベル付与モデル１１７を用いて文書データ（
ラベル付与済）２１５を生成することで、例えば、文書検索装置３００を利用するユーザのニーズに即した文書検索環境を提供することができる。

また本実施形態の文書検索システム１によれば、ユーザは、調整設定画面１１００を利用して、前述した調整方法１～３の少なくともいずれかを用いて、ラベル付与モデル１１７を容易に調整することができる。

また本実施形態の文書検索システム１においては、少ない学習データ（学習用文書データ（ラベル無し）１１２を用いてラベル付与モデル１１７を適切に学習させることができ、膨大な文書データ（ラベル無し）２１１に含まれている単語に対して効率よく適切なラベルを付与することができる。

以上、本発明の一実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。

例えば、本実施形態の文書検索システム１は、例えば、鉄道システムや医療機器、建設機械等におけるシステムや装置の障害発生時における、原因特定に用いる過去の類似案件に関する文書の検索、既存の特許文献からの新材料開発に利用可能な実験データの自動抽出、金融分野における財務諸表等の帳票からの与信情報の自動抽出等の様々な分野に適用することが可能であり、各種システムの検索負荷の軽減や検索作業の効率化を図ることができる。

また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、ＩＣ
カード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際には殆ど全ての構成が相互に接続されていると考えてもよい。

また以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

また前述した各種のデータを格納するデータベースの構成（スキーマ（Schema）等）は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。

１文書検索システム、２ユーザ装置、３管理装置、５第１通信ネットワーク、６
第２通信ネットワーク、１００モデル生成装置、１１０記憶部、１１１ラベル対象単語リスト、１１２学習用文書データ（ラベル無し）、１１３特徴量テーブル、１１４特徴量偏差テーブル、１１５単語数偏差テーブル、１１６偏差調整テーブル、
１１７ラベル付与モデル、１２５自然言語解析部、１３０単語検出／特徴量抽出部、１３５偏差調整テーブル生成部、１４０偏差調整部、１５０ラベル付与モデル生成部、１６０モデル送信部、２００ラベル付与装置、２１０記憶部、２１１文書データ（ラベル無し）、２１３単語／特徴量テーブル、２１４単語／ラベルテーブル、２１５文書データ（ラベル付与済）、２２５自然言語解析部、２３０単語検出／特徴量抽出部、２４０ラベル付与部、２５０ラベル編集部、２６０文書データ（ラベル付与済）生成送信部、３００文書検索装置、３１０記憶部、３３０検索条件受付部、３４０検索処理部、３５０検索結果出力部、１０００偏差確認画面、１１００調整設定画面

Claims

対象とする文書である対象文書に含まれている単語にラベルを付与する機械学習モデルであるラベル付与モデルを生成する情報処理装置であるラベル付与モデル生成装置であって、
前記ラベル付与モデルは、付与しようとする複数のラベルの夫々について、ラベルと、当該ラベルの付与対象となるために単語が有するべき特徴量である特徴量と、前記特徴量を有する単語に対して当該ラベルを付与するか否かの判断指標であるスコアとを対応づけた情報を含み、
対象文書に含まれている単語へのラベルの付与は、前記文書から抽出される単語と当該単語について抽出される特徴量との組合せを前記ラベル付与モデルに与えることにより取得される前記スコアに基づき行われ、
前記ラベル付与モデルの生成に用いる複数の学習用文書を記憶し、
各前記学習用文書において共通の前記特徴量を有する単語の出現頻度の偏差である単語数偏差に基づき前記学習用文書単位で前記スコアを求めることにより前記ラベル付与モデルを生成する、
ラベル付与モデル生成装置。
請求項１に記載のラベル付与モデル生成装置であって、
前記単語数偏差が予め設定された第１閾値を超える単語が前記複数の学習用文書に第２閾値以下の割合で存在する前記共通の特徴量を有する場合に、前記第１閾値を超える前記単語である特定の単語の前記単語数偏差の前記スコアへの影響度である単語数重みを調整し、
前記特定の単語の前記単語数偏差の前記スコアへの影響を前記単語数重みに応じて調整する、
ラベル付与モデル生成装置。
請求項２に記載のラベル付与モデル生成装置であって、
前記単語数偏差が予め設定された第１閾値を超える単語が前記複数の学習用文書に第２閾値以下の割合で存在する前記共通の特徴量を有する場合に前記単語数重みを減らすことにより、前記特定の単語の前記単語数偏差の前記スコアへの影響を減らす、
ラベル付与モデル生成装置。
請求項１に記載のラベル付与モデル生成装置であって、
ユーザインタフェースを介して入力される、前記単語数偏差の前記スコアへの影響度である単語数重みを受け付け、受け付けた前記単語数重みに応じて、前記単語数偏差の前記スコアへの影響を調整する、
ラベル付与モデル生成装置。
請求項１に記載のラベル付与モデル生成装置であって、
前記単語数偏差と、同じ前記学習用文書における前記特徴量の出現頻度の偏差である特徴量偏差とに基づき、前記スコアを求めることにより前記ラベル付与モデルを生成する、
ラベル付与モデル生成装置。
請求項５に記載のラベル付与モデル生成装置であって、
前記特徴量偏差が予め設定された第３閾値を超える前記特徴量が前記複数の学習用文書に第４閾値以下の割合で抽出される場合に、前記第３閾値を超える前記特徴量である特定の特徴量の前記特徴量偏差の前記スコアへの影響度である特徴量重みを調整し、
前記特定の特徴量の前記特徴量偏差の前記スコアへの影響を前記特徴量重みに応じて調整する、
ラベル付与モデル生成装置。
請求項６に記載のラベル付与モデル生成装置であって、
前記特徴量偏差が予め設定された第３閾値を超える前記特徴量が前記複数の学習用文書に第４閾値以下の割合で抽出される場合に前記特徴量重みを減らすことにより、前記特定の特徴量の前記特徴量偏差の前記スコアへの影響を減らす、
ラベル付与モデル生成装置。
請求項５に記載のラベル付与モデル生成装置であって、
ユーザインタフェースを介して入力される、前記特徴量偏差の前記スコアへの影響度である特徴量重みを受け付け、受け付けた前記特徴量重みに応じて、前記特徴量偏差の前記スコアへの影響を調整する、
ラベル付与モデル生成装置。
請求項１に記載のラベル付与モデル生成装置であって、
前記単語数偏差が予め設定された第１閾値を超える単語が前記複数の学習用文書に第２閾値以下の割合で存在する前記共通の特徴量を有する場合に、前記第１閾値を超える前記単語である特定の単語を含む前記学習用文書を前記複数の学習用文書から除外する、
ラベル付与モデル生成装置。
請求項５に記載のラベル付与モデル生成装置であって、
前記特徴量偏差が予め設定された第３閾値を超える前記特徴量が前記複数の学習用文書に第４閾値以下の割合で抽出される場合に、前記第３閾値を超える前記特徴量である特定の特徴量の抽出元の前記学習用文書を前記複数の学習用文書から除外する、
ラベル付与モデル生成装置。
請求項５に記載のラベル付与モデル生成装置であって、
前記学習用文書ごとに、前記特徴量の出現頻度と、前記特徴量を有する単語の数とを、夫々が占める割合に応じた面積で視覚的に描画した棒グラフを表示するユーザインタフェースを備える、
ラベル付与モデル生成装置。
対象とする文書である対象文書に含まれている単語にラベルを付与する機械学習モデルであるラベル付与モデルを生成する方法であって、
前記ラベル付与モデルは、付与しようとする複数のラベルの夫々について、ラベルと、当該ラベルの付与対象となるために単語が有するべき特徴量である特徴量と、前記特徴量を有する単語に対して当該ラベルを付与するか否かの判断指標であるスコアとを対応づけた情報を含み、
対象文書に含まれている単語へのラベルの付与は、前記文書から抽出される単語と当該単語について抽出される特徴量との組合せを、前記ラベル付与モデルに与えることにより取得される前記スコアに基づき行われ、
情報処理装置が、
前記ラベル付与モデルの生成に用いる複数の学習用文書を記憶するステップと、
各前記学習用文書において共通の前記特徴量を有する単語の出現頻度の偏差である単語数偏差に基づき前記学習用文書単位で前記スコアを求めることにより前記ラベル付与モデルを生成するステップと、
を実行する、ラベル付与モデル生成方法。
請求項１２に記載のラベル付与モデル生成方法であって、
前記情報処理装置が、
前記単語数偏差が予め設定された第１閾値を超える単語が前記複数の学習用文書に第２閾値以下の割合で存在する前記共通の特徴量を有する場合に、前記第１閾値を超える前記単語である特定の単語の前記単語数偏差の前記スコアへの影響度である単語数重みを調整するステップと、
前記特定の単語の前記単語数偏差の前記スコアへの影響を前記単語数重みに応じて調整するステップと、
を更に実行する、ラベル付与モデル生成方法。
請求項１２に記載のラベル付与モデル生成方法であって、
前記情報処理装置が、前記単語数偏差と、同じ前記学習用文書における前記特徴量の出現頻度の偏差である特徴量偏差とに基づき、前記スコアを求めることにより前記ラベル付与モデルを生成するステップ、
を更に実行する、ラベル付与モデル生成方法。
請求項１２に記載のラベル付与モデル生成方法であって、
前記情報処理装置が、前記単語数偏差が予め設定された第１閾値を超える単語が前記複数の学習用文書に第２閾値以下の割合で存在する前記共通の特徴量を有する場合に、前記第１閾値を超える前記単語である特定の単語を含む前記学習用文書を前記複数の学習用文書から除外するステップ、
を更に実行する、ラベル付与モデル生成方法。