JP7425662B2 - ラベル設計支援装置、及びラベル設計支援方法 - Google Patents

ラベル設計支援装置、及びラベル設計支援方法 Download PDF

Info

Publication number
JP7425662B2
JP7425662B2 JP2020073448A JP2020073448A JP7425662B2 JP 7425662 B2 JP7425662 B2 JP 7425662B2 JP 2020073448 A JP2020073448 A JP 2020073448A JP 2020073448 A JP2020073448 A JP 2020073448A JP 7425662 B2 JP7425662 B2 JP 7425662B2
Authority
JP
Japan
Prior art keywords
label design
label
correction
word
design
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020073448A
Other languages
English (en)
Other versions
JP2021170255A (ja
Inventor
美智子 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020073448A priority Critical patent/JP7425662B2/ja
Publication of JP2021170255A publication Critical patent/JP2021170255A/ja
Application granted granted Critical
Publication of JP7425662B2 publication Critical patent/JP7425662B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ラベル設計支援装置、及びラベル設計支援方法に関する。
特許文献1には、ラベル付与の負担を低減すると共により柔軟な機械学習を実現することを目的として構成された情報処理装置に関して記載されている。情報処理装置は、制約ラベルが付与された学習用データを用いて機械学習を行う学習部を備え、制約ラベルは、通常ラベルが従うべき制約の種別を定義したラベルであり、学習部は、制約ラベルに基づいて、学習モデルを選択し、制約ラベルに基づき、学習モデルに係るネットワークを選択し、制約ラベルに基づき、学習モデルに係るロス関数を選択し、学習用データに基づき制約ラベルを推定する。
国際公開第2019/097784号
例えば、文書検索システムにおいて検索対象となる文書に含まれている単語にラベルを付与(アノテーション(annotation))する場合、一般的なラベル(場所、人名等)については公開されている定義済みのラベルを利用することが可能である。しかしドメイン(組織における特定の部門等)で固有に用いられている固有表現について適切なカテゴリのラベルを付与するにはラベルの設計が必要になる。尚、固有表現とは、人名や地名等、特定の物事を指す単語の総称である。例えば、「技術者」や「東京都」は、「人」、「場所」についての固有表現である。またこの場合、上記の「人」、「場所」はカテゴリに相当する。
ここで一般にドメインにおけるラベルの設計は、IT技術者とドメインの知識を有する者(以下、「SME」(Subject Matter Expert)と称する。)が対話を行いつつ進めら
れるが、この場合、次のような課題がある。即ち、例えば、SMEが主体となってラベルの設計が行われた場合、ドメイン寄りの観点でラベルが設計され、文書に含まれている各単語のラベルへの帰属の判定において複数のラベルの判定に共通の特徴量が用いられて正しいラベルが付与されないことがある。尚、この場合は、例えば、より上位概念のラベルを設定する必要がある。また例えば、ドメインの知識を有していないIT技術者が主体となってラベルの設計が行われた場合、本来、異なるラベルを付与すべき複数の単語に同じラベルが付与されてしまうことがある。
本発明は、上記の課題に鑑みなされたものであり、その目的は、単語に適切なラベルを付与するためのラベルの設計を支援する、ラベル設計支援装置、及びラベル設計支援方法を提供することにある。
上記目的を達成するための本発明の一つは、ラベル設計支援装置であって、情報処理装置を用いて構成され、ラベルと当該ラベルの付与対象となる複数の単語とを対応づけた情報であるラベル設計を記憶する記憶部と、前記ラベル設計において前記ラベルに対応づけられている前記単語を特徴量に基づきベクトル化した単語ベクトルを生成するベクトル化部と、前記単語ベクトルをクラスタリングするクラスタリング部と、前記クラスタリング
の結果と、前記ラベル設計における前記ラベルと前記単語の関係とを比較することにより前記ラベル設計の補正要否を判定するラベル設計評価部と、を備える。
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
本発明によれば、単語に適切なラベルを付与するためのラベルの設計を支援することができる。
ラベル設計支援装置が備える主な機能を示す図である。 ラベル設計原案の一例である。 蓄積特徴量の一例である。 ラベル設計原案の一例である。 ラベル設計原案の一例である。 ラベル設計原案に含まれている単語をクラスタリングした結果を模式的に示した図である。 図5の模式図に図4Aのラベル設計原案の各ラベルの範囲を表した図である。 図5の模式図に図4Bのラベル設計原案の各ラベルの範囲を表した図である。 図6Aに対応する補正案の模式図である。 図6Bに対応する補正案の模式図である。 ラベル設計支援装置の実現に用いる情報処理装置のハードウェア構成例である。 ラベル設計支援処理を説明するフローチャートである。 評価処理を説明するフローチャートである。 ラベル設計提案処理を説明するフローチャートである。 特徴量調整処理を説明するフローチャートである。 適用事例として示す文書検索システムのシステムフロー図である。
以下、実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成について同一の符号を付して重複した説明を省略することがある。また以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。また本発明は、他の種々の形態でも実施する事が可能である。またとくに限定しない限り、各構成要素は単数でも複数でも構わない。また識別情報について説明する際、「識別子」、「ID」等の表現を適宜用いるが、これらについてはお互いに置換可能である。
図1は、一実施形態として示す情報処理装置(以下、「ラベル設計支援装置100」と称する。)が備える主な機能を示す図である。ラベル設計支援装置100は、ラベルの設計を行うユーザ(SME(Subject Matter Expert)、IT技術者等)が作成した設計原
案(ラベルと単語を対応付けた情報。以下、「ラベル設計原案」と称する。)に含まれている各単語をクラスタリングし、クラスタリングの結果(各単語のクラスタへの帰属の様子)とラベル設計原案におけるラベルと単語の関係(各単語のラベルへの帰属の様子)を比較することによりラベル設計原案を評価し、ラベル設計原案の補正要否を判定する。そしてラベル設計支援装置100は、補正要と判定した場合、ラベル設計原案を補正し、補正後のラベル設計原案(以下、「ラベル設計結果」と称する。)を出力する。
同図に示すように、ラベル設計支援装置100は、記憶部110、ラベル設計原案受付部120、ベクトル化部130、クラスタリング部140、ラベル設計評価部150、ラベル設計補正部160、結果出力部170、及び閾値設定部180の各機能を備える。
記憶部110は、ラベル設計原案111、蓄積特徴量112、第1閾値113、第2閾値114、ラベル設計結果115、及び特徴量調整情報116を記憶する。記憶部110は、例えば、DBMSが提供するデータベースのテーブルや、ファイルシステムが提供するファイルとして、これらの情報(データ)を記憶する。
ラベル設計原案111は、前述したラベル設計原案であり、ラベルと当該ラベルを付与する単語とを対応づけた情報を含む。
図2にラベル設計原案111の一例を示す。同図に示すように、ラベル設計原案111は、ラベルID1111、ラベル1112、単語ID1113、及び単語1114の各項目を対応づけた複数のエントリ(レコード)で構成される。上記項目のうち、ラベルID1111には、単語に付与するラベルの識別子であるラベルIDが設定される。ラベル1112には、単語に付与するラベルが設定される。単語ID1113には、単語の識別子である単語IDが設定される。単語1114には、ラベルの付与対象となる単語が設定される。
図1に戻り、蓄積特徴量112は、例えば、ラベル設計支援装置100によって設計されたラベル設計を利用してラベル付けが行われた文書を検索対象とする後述の文書検索システム1300等において過去に用いられた特徴量である。
図3に蓄積特徴量112の一例を示す。同図に示すように、蓄積特徴量112には、単語と特徴量の対応が管理される。同図に示すように、蓄積特徴量112は、単語ID1121、単語1122、特徴量ID1123、及び特徴量1124の各項目を対応づけた複数のエントリ(レコード)で構成される。
上記項目のうち、単語ID1121には、前述の単語IDが設定される。単語1122には、当該ラベルが付与される単語が設定される。特徴量1123には、当該単語について当該文書から抽出された特徴量の識別子である特徴量IDが設定される。特徴量1124には、当該文書から抽出された特徴量が設定される。特徴量は、例えば、単語の接頭辞や接尾辞に関するもの、単語の周辺に表れる他の単語(共起語)に関するもの、単語の周辺の文脈に関するもの、単語の周辺の文構造(構文)に関するもの等である。
図1に戻り、第1閾値113及び第2閾値114は、いずれもラベル設計原案111の評価に際して用いる閾値である。これらの詳細については後述する。
ラベル設計結果115は、ラベル設計支援装置100がラベル設計原案111に基づき生成したラベル設計の結果(以下、「ラベル設計結果」と称する。)に関する情報を含む。
ベクトル化部130は、ラベル設計原案111に含まれている各単語をクラスタリングするための準備処理として、ラベル設計原案111における各単語をベクトル(以下、「単語ベクトル」と称する。)に変換する。上記変換の方法としては、例えば、One hot表
現(TF-IDF等)によるもの、分散表現によるもの(word2vec(Skip-gram、CBOW)等)等が
ある。
クラスタリング部140は、ベクトル化部130によって生成された単語ベクトルに基づき、ラベル設計原案111における各単語をクラスタリングする。上記クラスタリングの方法として、例えば、非階層的手法(k-means法)、階層的手法(分割型、凝集型)等
がある。
ラベル設計評価部150は、クラスタリングした単語のクラスタへの帰属の様子とラベル設計原案111における各単語のラベルへの帰属の様子を比較することにより、ラベル設計原案111を評価し、ラベル設計原案111を補正する必要があるか否かを判定する。この判定は、例えば、次のようにして行われる。
図4A及び図4Bは夫々、以下の説明で用いるラベル設計原案111の一例である。また図5は、図4A及び図4Bに示すラベル設計原案111に含まれている単語をクラスタリング部140がクラスタリングした結果を模式的に示した図である。同図は、単語IDがw1~w13である13個の単語をクラスタリングした場合であり、これらの単語(単ベクトル)が、クラスタリング部140によってC1(w1~w5)、C2(w6~w9)、C3(w10~w13)の3つのクラスタに分類されている。
ここでラベル設計評価部150は、例えば、ラベルごとに、代表クラスタ(最も多くの単語が属するクラスタ)の単語が複数のラベルに対応付けられているものがあるか(代表クラスタが重複するラベルが存在するか)否か(以下、「第1判定基準」と称する)に基づき、ラベル設計原案111の補正要否を判定する。
図6Aは、図5に示したクラスタリング結果の模式図に、図4Aのラベル設計原案111の各ラベルの範囲を表した図である。本例の場合、「ラベル1」の代表クラスタはC1であり、「ラベル2」の代表クラスタもC1であり、「ラベル1」と「ラベル2」は代表クラスタC1が重複しており、第1判定基準を満たす。そこでこの場合、ラベル設計評価部150は、ラベル設計原案111を補正する必要があると判定する。
また例えば、ラベル設計評価部150は、ラベルごとに、代表クラスタの重心からの各単語の距離の平均(以下、「平均距離」と称する。)が所定範囲外(予め設定された第1閾値未満または予め設定された第2閾値を超える)であるか否か(以下、「第2判定基準」と称する)に基づき、ラベル設計原案111の補正要否を判定する。
図6Bは、図5に示したクラスタリング結果の模式図に、図4Bのラベル設計原案111の各ラベルの範囲を表した図である。本例の場合、「ラベル1」については、代表クラスタであるC1の重心からの距離の平均(以下、「平均距離」と称する。)が、第2閾値を超えており(ラベルが大まか過ぎる)、第2判定基準を満たす。また「ラベル2」については、代表クラスタであるC3の重心からの平均距離が、第1閾値未満であり(ラベルが細か過ぎる)、第2判定基準を満たす。そこでこの場合、ラベル設計評価部150は、ラベル設計原案111を補正する必要があると判定する。
図1に戻り、ラベル設計補正部160は、ラベル設計評価部150がラベル設計原案111を補正する必要があると判定した場合にラベル設計原案111を補正する。同図に示すように、ラベル設計補正部160は、新ラベル設計提案部161、特徴量調整部162、及び補正処理部163の各機能を含む。
新ラベル設計提案部161は、ラベル設計原案111の補正案を生成してユーザに提示する。
例えば、図6Aの場合、新ラベル設計提案部161は、クラスタリング部140により
クラスタリングされた各クラスタにラベルを対応づけた(クラスタ通りにラベルを付与した)、図7Aに示す補正案を生成してユーザに提示する。
また例えば、図6Bの場合、新ラベル設計提案部161は、「ラベル1」については重心からの平均距離が第2閾値以下となるようにラベルを設定し直し、「ラベル2」については重心からの平均距離が第1閾値以上となるようにラベルを設定し直した、例えば、図7Bに示す補正案を生成してユーザに提示する。
図1に戻り、特徴量調整部162は、新ラベル設計提案部161が提示した補正案にユーザが同意しない場合に、ベクトル化部130が単語をベクトル化する際に用いる特徴量を調整(例えば、新たな特徴量を追加、特徴量の変更、特徴量の削除等)し、調整した特徴量を用いて、クラスタリング部140によるクラスタリングと新ラベル設計提案部161による補正案の生成を再度行う。特徴量調整部162は、調整に用いる特徴量を、例えば、蓄積特徴量112から選択する。また特徴量調整部162は、調整に用いる特徴量を、例えば、ユーザインタフェースを介してユーザから受け付ける。
補正処理部163は、新ラベル設計提案部161が提案した補正案にユーザが同意した場合に、上記補正案により補正したラベル設計をラベル設計結果115として生成する。尚、特徴量の調整を行った場合、補正処理部163は、特徴量の調整内容(追加した特徴量に関する情報等。以下、「特徴量調整情報116」と称する。)をラベル設計結果115に付帯させる。
結果出力部170は、ラベル設計結果115を出力する。またラベル設計補正部160は、例えば、外部の装置(例えば、文書検索システムの検索対象となる文書に含まれている単語にラベルを付与する装置)に送信する。
閾値設定部180は、ラベル設計評価部150がラベル設計原案111の補正要否の判定に際して参照する、前述の所定範囲の設定(第1閾値113、第2閾値114の設定)をユーザから受け付ける。
図8に、ラベル設計支援装置100の実現に用いる情報処理装置のハードウェア構成の一例を示す。例示する情報処理装置10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、出力装置15、及び通信装置16を備える。尚、情報処理装置10は、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また情報処理装置10によって提供される機能の全部または一部を、例えば、クラウドシステムがAPI(Application Programming Interface)等を介して提供するサービスによって実現してもよい。
プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable
Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成されている。
主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read
Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
補助記憶装置13は、例えば、ハードディスクドライブ、SSD(Solid State Drive
)、光学式記憶装置(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、
ストレージシステム、ICカード、SDカードや光学式記録媒体等の記録媒体の読取/書込装置、クラウドサーバの記憶領域等である。補助記憶装置13には、記録媒体の読取装置や通信装置16を介してプログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み込まれる。
入力装置14は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。
出力装置15は、処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。尚、例えば、情報処理装置10が通信装置16を介して他の装置との間で情報の入力や出力を行う構成としてもよい。
尚、入力装置14及び出力装置15は、ユーザとの間で情報の受け付けや情報の提示を行うユーザインタフェースを構成する。
通信装置16は、他の装置との間の通信を実現する装置である。通信装置16は、第1通信ネットワーク5や第2通信ネットワーク6を介した他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール等である。
情報処理装置10には、例えば、オペレーティングシステム、ファイルシステム、DBMS(DataBase Management System)(リレーショナルデータベース、NoSQL等)、KVS(Key-Value Store)等が導入されていてもよい。
ラベル設計支援装置100が備える前述した機能は、プロセッサ11が、主記憶装置12に格納されているプログラムを読み出して実行することにより、もしくは、これらの装置を構成するハードウェア(FPGA、ASIC、AIチップ等)によって実現される。
続いて、ラベル設計支援装置100が行う処理についてフローチャートとともに説明する。
図9は、ラベル設計支援装置100が行う処理(以下、「ラベル設計支援処理S900」と称する。)を説明するフローチャートである。以下、同図とともにラベル設計支援処理S900について説明する。
同図に示すように、まずラベル設計原案受付部120が、ユーザからラベル設計原案111を受け付ける(S911)。
続いて、ベクトル化部130が、受け付けたラベル設計原案111に含まれている単語を単語ベクトルに変換し、クラスタリング部140が、単語ベクトルをクラスタリングする(図5を参照)(S912)。
続いて、ラベル設計評価部150が、S911で受け付けたラベル設計原案111を評価する処理(以下、「評価処理S913」と称する。)を行う。
図10は、評価処理S913の詳細を説明するフローチャートである。
まずラベル設計評価部150は、ラベル設計原案111のラベルごとに、単語のクラスタへの帰属の様子とラベル設計原案111における各単語のラベルへの帰属の様子を比較する(図6A、図6Bを参照)。
続いて、ラベル設計評価部150は、クラスタの分布が前述した第1判定基準を満たすか否か、即ち、代表クラスタの単語が複数のラベルに対応付けられているか(代表クラスタが重複するラベルが存在するか)否かを判定する(S1013)。クラスタの分布が第1判定基準を満たす(代表クラスタが重複するラベルがある)場合(S1013:YES)、ラベル設計評価部150は、戻り値に「補正要」を設定し(S1020)、評価処理S913を終了する。一方、クラスタの分布が第1判定基準を満たさない場合(S1013:NO)、処理はS1014に進む。
S1014では、ラベル設計評価部150は、ラベルごとに、代表クラスタからの各単語の平均距離を求める。
続いて、ラベル設計評価部150は、第2判定基準を満たすか否か、即ち、求めた各単語の平均距離が所定範囲外(第1閾値未満または第2閾値を超える)であるか否かを判定する。第2判定基準を満たす(平均距離が所定範囲外である)場合(S1015:YES)、ラベル設計評価部150は、戻り値に「補正要」を設定し(S1020)、評価処理S913を終了する。一方、第2判定基準を満たさない場合(S1015:NO)、ラベル設計評価部150は、戻り値に「補正不要」を設定し(S1016)、評価処理S913を終了する。
図9に戻り、続いて、ラベル設計支援装置100は、評価処理S913の戻り値を判定する(S915)。戻り値が「補正不要」であれば(S915:NO)、ラベル設計補正部160が、S911で受け付けたラベル設計原案111を内容とするラベル設計結果115を生成する(S921)。その後、処理はS922に進む。一方、戻り値が「補正要」であれば(S915:YES)、ラベル設計補正部160が、ラベル設計を提案する処理(以下、「ラベル設計提案処理S916」と称する。)を行う。
図11は、ラベル設計提案処理S916の詳細を説明するフローチャートである。まずラベル設計補正部160は、補正が必要となった要因が、代表クラスタの単語が複数のラベルに対応付けられている(代表クラスタが重複するラベルが存在する(即ち、第1判定基準を満たす))ことであるか否かを判定する(S1101)。ラベル設計補正部160が、補正が必要となった要因が代表クラスタの単語が複数のラベルに対応付けられていることであると判定した場合(S1101:YES)、新ラベル設計提案部161が、S912のクラスタリングの結果通りのラベル設計(クラスタ通りにラベルを付与したラベル設計)をユーザに提示する(S1102)。その後、ラベル設計提案処理S916は終了する。一方、ラベル設計補正部160が、補正が必要となった要因が、代表クラスタの単語が複数のラベルに対応付けられている(第1判定基準を満たす)ことでないと判定した場合(S1101:NO)、処理はS1111に進む。
S1111では、ラベル設計補正部160が、代表クラスタの重心からの平均距離を第1閾値及び第2閾値と比較する(第2判定基準)。代表クラスタの重心からの平均距離が第2閾値を超える場合(S1111:第2閾値<平均距離)、新ラベル設計提案部161が、代表クラスタの重心からの平均距離が第2閾値以下になるように設定し直したラベル設計をユーザに提示する(S1112)。その後、ラベル設計提案処理S916は終了する。一方、代表クラスタの重心からの平均距離が第1閾値未満である場合(S1111:平均距離<第2閾値)、新ラベル設計提案部161が、代表クラスタの重心からの平均距
離が第1閾値以上になるように設定し直したラベル設計をユーザに提示する(S1113)。その後、ラベル設計提案処理S916は終了する。
図9に戻り、続いて、ラベル設計補正部160は、新ラベル設計提案部161が提示したラベル設計に同意するか否かをユーザに確認する(S917)。新ラベル設計提案部161が提示したラベル設計にユーザが同意する場合(S917:YES)、処理はS920に進む。一方、新ラベル設計提案部161が提示したラベル設計にユーザが同意しない場合(S917:NO)、ラベル設計補正部160は、特徴量を調整する処理(以下、「特徴量調整処理S918」と称する。)を行う。
図12は、特徴量調整処理S918の詳細を説明するフローチャートである。特徴量調整部162は、S912においてベクトル化部130が単語をベクトル化する際に用いる特徴量を調整(例えば、新たな特徴量を蓄積特徴量112から検索)する(S1211)。特徴量調整部162は、例えば、ラベルを付与しようとする単語(例えば、文書に含まれている単語)に対して、より適切にラベルを付与することができるように特徴量を調整する。
特徴量調整部162が特徴量を適切に調整することができた(例えば、蓄積特徴量112から適切な特徴量を検索することができた)場合(S1212:YES)、特徴量調整処理S918は終了する。一方、特徴量を適切に調整することができなかった場合(例えば、適切な特徴量を蓄積特徴量112から検索することができなかった場合)(S1212:NO)、特徴量調整部162は、ユーザから特徴量の調整内容(例えば、追加する新たな特徴量)の入力を受け付ける。その後、特徴量調整処理S918は終了する。
図9に戻り、S920では、ラベル設計補正部160は、ユーザが同意したラベル設計(ラベル設計提案処理S916で提示したラベル設計)に基づきラベル設計結果115を生成する。尚、特徴量調整処理S918で特徴量の調整内容をユーザから受け付けている場合、ラベル設計補正部160は、生成するラベル設計結果115に特徴量調整情報116を付帯させる。
S922では、結果出力部170が、ラベル設計結果115を出力する。その後、ラベル設計支援処理S900は終了する。
以上に説明したように、本実施形態のラベル設計支援装置100は、クラスタリングの結果とラベル設計原案111におけるラベルと単語の関係を比較することによりラベル設計の補正要否を判定するので、ラベル設計について補正の要否を適切に判定することができる。またラベル設計支援装置100は、補正要と判定した場合、ラベルの補正案を生成するので、ラベルの設計にかかるユーザの負荷を軽減することができる。このように、ラベル設計支援装置100は、単語に適切なラベルを付与するためのラベルの設計を支援することができる。
またラベル設計支援装置100は、代表クラスタの単語が複数のラベルに対応付けられていると判定した場合に、例えば、クラスタリングされた各クラスタにラベルを対応づけた内容のラベル設計の補正案を生成する。そのため、例えば、SMEが主体となってラベルの設計が行われることによりドメイン寄りの観点でラベルが設計されてしまい、文書に含まれている各単語のラベルへの帰属の判定において複数のラベルの判定に共通の特徴量が用いられてラベルの付与精度が低下してしまうのを防ぐことができる。
またラベル設計支援装置100は、代表クラスタの重心からの各単語の平均距離が所定範囲外であると判定したラベルについて、例えば、平均距離が所定範囲内になるようにラ
ベルを設定し直した内容のラベル設計の補正案を生成する。そのため、例えば、ドメインの知識を有していないIT技術者が主体となってラベルの設計が行われた場合、本来、異なるラベルを付与すべき複数の単語に同じラベルが付与されてしまうのを防ぐことができる。
またラベル設計支援装置100は、補正案をユーザに提示することによりユーザが補正案に同意するか否かを受け付け、ユーザが同意した場合に補正案をラベル設計の結果として出力するので、ユーザの意向に沿ったラベル設計を行うことができる。
またラベル設計支援装置100は、ラベル設計について補正要と判定した場合に、特徴量を調整してベクトル化を行うことにより単語ベクトルを生成してクラスタリングし直し、ラベル設計の補正要否を再度判定するので、適切なラベル設計を行うことができる。
尚、以上では、第1判定基準を満たす場合、第2判定基準を満たす場合、及び提示したラベル設計にユーザが同意しない場合の夫々に対応する3つの補正方法を例示したが、これらの2つ以上の方法を同時に適用してもよい。
<適用事例>
続いて、ラベル設計支援装置100が生成したラベル設計結果115の適用事例について説明する。
図13は、本発明の適用事例として示す文書検索システム1300のシステムフロー図である。例示する文書検索システム1300は、ラベル設計支援装置100が生成したラベル設計結果115に基づき、文書に含まれている単語にラベルを付与する機械学習モデルであるラベル付与モデル117を生成する。
同図に示すように、例示する文書検索システム1300は、モデル生成装置250、ラベル付与装置200、文書検索装置300、及びユーザ装置2を含む。
文書検索装置300は、テキストデータ等の所定のデータ形式で記述された多数の文書群である文書データ(ラベル付与済)215を検索対象として、ユーザ装置2から送られてくる検索条件(クエリ)による検索処理を実行し、検索結果をユーザ装置2に返す。
文書データ(ラベル付与済)215は、ラベルの付与対象の文書データである文書データ(ラベル無し)211に含まれている単語について、ラベル付与装置200がラベルを付与することにより生成される。ラベル付与装置200は、機械学習モデルであるラベル付与モデル117を用いて文書データ(ラベル無し)211に含まれている単語にラベルを付与することにより、単語とラベルとを対応付けた情報が付帯する文書データ(ラベル付与済)215を生成する。
モデル生成装置250は、ラベル付与モデル117を生成する情報処理装置である。モデル生成装置250は、付与しようとするラベルと、当該ラベルの付与対象となる一つ以上の単語のセットを含む情報である、ラベル設計支援装置100から提供される、ラベル設計結果115(特徴量調整情報116が付帯する場合は当該特徴量調整情報116も含む)と、学習用に用意される、特徴量の抽出元の文書データである学習用文書データ(ラベル無し)212とに基づき、ラベル付与モデル117を生成する。具体的には、モデル生成装置250は、ラベル設計結果115においてラベルに対応づけられている各単語について、例えば、公知の特徴量抽出アルゴリズムにより学習用文書データ(ラベル無し)212から特徴量を抽出し、抽出した各特徴量について夫々の文書中における出現頻度をスコアリングすることにより得られる確率モデルをラベル付与モデル117として生成す
る。尚、ラベル設計結果115に特徴量調整情報116が付帯する場合、上記各特徴量として当該特徴量調整情報116に含まれている特徴量も採用される。
以上の構成からなる文書検索システム1300は、例えば、鉄道システムや医療機器、建設機械等におけるシステムや装置の障害発生時における、原因特定に用いる過去の類似案件に関する文書の検索、既存の特許文献からの新材料開発に利用可能な実験データの自動抽出、金融分野における財務諸表等の帳票からの与信情報の自動抽出等の様々な分野に適用することが可能であり、これにより各種システムの検索負荷の軽減や検索作業の効率化を図ることができる。
以上、本発明の一実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。
例えば、図5、図6A、図6B、図7A、図7Bでは、単語ベクトルを二次元の模式図で示したが、単語ベクトルの次元は必ずしも限定されず、三次元以上の単語ベクトルを用いてもよい。
また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、IC
カード、SDカード、DVD等の記録媒体に置くことができる。
また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。例えば、実際には殆ど全ての構成が相互に接続されていると考えてもよい。
また以上に説明した各情報処理装置の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。
また前述した各種のデータを格納するデータベースの構成(スキーマ(Schema)等)は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。
100 ラベル設計支援装置
110 記憶部
111 ラベル設計原案
112 蓄積特徴量
113 第1閾値
114 第2閾値
115 ラベル設計結果
116 特徴量調整情報
120 ラベル設計原案受付部
130 ベクトル化部
140 クラスタリング部
150 ラベル設計評価部
160 ラベル設計補正部
161 新ラベル設計提案部
162 特徴量調整部
163 補正処理部
170 結果出力部
180 閾値設定部
S900 ラベル設計支援処理
S913 評価処理
S916 ラベル設計提案処理
S918 特徴量調整処理
1300 文書検索システム

Claims (15)

  1. 情報処理装置を用いて構成され、
    ラベルと当該ラベルの付与対象となる複数の単語とを対応づけた情報であるラベル設計を記憶する記憶部と、
    前記ラベル設計において前記ラベルに対応づけられている前記単語を特徴量に基づきベクトル化した単語ベクトルを生成するベクトル化部と、
    前記単語ベクトルをクラスタリングするクラスタリング部と、
    前記クラスタリングの結果と、前記ラベル設計における前記ラベルと前記単語の関係とを比較することにより前記ラベル設計の補正要否を判定するラベル設計評価部と、
    を備える、ラベル設計支援装置。
  2. 請求項1に記載のラベル設計支援装置であって、
    前記ラベル設計評価部は、単語数が最大のクラスタである代表クラスタの単語が複数のラベルに対応付けられているか否かを判定することにより、前記ラベル設計の補正要否を判定する、
    ラベル設計支援装置。
  3. 請求項2に記載のラベル設計支援装置であって、
    前記ラベル設計評価部が前記ラベル設計について補正要と判定した場合に、前記ラベル設計の補正案を生成するラベル設計補正部を更に備え、
    前記ラベル設計評価部が、前記代表クラスタの単語が複数のラベルに対応付けられていると判定した場合に、前記ラベル設計補正部が、前記クラスタリング部によりクラスタリングされた各クラスタに前記ラベルの夫々を対応づけた内容の前記ラベル設計の補正案を生成する、
    ラベル設計支援装置。
  4. 請求項1に記載のラベル設計支援装置であって、
    前記ラベル設計評価部は、前記ラベルごとに、単語数が最大のクラスタである代表クラスタの重心からの各単語の平均距離が所定範囲内である否かを判定することにより、前記ラベル設計の補正要否を判定する、
    ラベル設計支援装置。
  5. 請求項4に記載のラベル設計支援装置であって、
    前記ラベル設計評価部が前記ラベル設計について補正要と判定した場合に、前記ラベル設計の補正案を生成するラベル設計補正部を更に備え、
    前記ラベル設計評価部が、単語数が最大のクラスタである代表クラスタの重心からの各単語の平均距離が所定範囲内でないと判定したラベルについて、前記ラベル設計補正部が、前記平均距離が前記所定範囲内になるように前記ラベルを設定し直した内容の前記ラベル設計の補正案を生成する、
    ラベル設計支援装置。
  6. 請求項4に記載のラベル設計支援装置であって、
    前記所定範囲の設定を受け付けるユーザインタフェースを更に備える、
    ラベル設計支援装置。
  7. 請求項1に記載のラベル設計支援装置であって、
    前記ラベル設計評価部が前記ラベル設計について補正要と判定した場合に、前記ラベル設計の補正案を生成するラベル設計補正部を更に備え、
    前記ラベル設計補正部は、ユーザインタフェースを介して前記補正案をユーザに提示す
    ることによりユーザが前記補正案に同意するか否かを受け付け、
    ユーザが同意した場合に前記補正案をラベル設計の結果として出力する結果出力部を更に備える、
    ラベル設計支援装置。
  8. 請求項1に記載のラベル設計支援装置であって、
    前記ラベル設計評価部が、前記ラベル設計について補正要と判定した場合に、特徴量を調整して前記ベクトル化を行うことにより前記単語ベクトルを生成し、生成した前記単語ベクトルをクラスタリングし、
    前記ラベル設計評価部が、前記クラスタリングの結果と前記ラベル設計における前記ラベルと前記単語の関係を評価することにより、前記ラベル設計の補正要否を再度判定する、
    ラベル設計支援装置。
  9. 請求項8に記載のラベル設計支援装置であって、
    前記ラベル設計評価部が前記ラベル設計について補正要と判定した場合に、前記ラベル設計の補正案を生成するラベル設計補正部を更に備え、
    前記ラベル設計補正部は、ユーザインタフェースを介して前記補正案をユーザに提示することによりユーザが前記補正案に同意するか否かを受け付け、
    ユーザが同意した場合に前記ラベル設計の結果と特徴量の前記調整の内容とを出力する結果出力部を更に備える、
    ラベル設計支援装置。
  10. 請求項8に記載のラベル設計支援装置であって、
    特徴量の前記調整は、新たな特徴量の追加である、
    ラベル設計支援装置。
  11. 情報処理装置が、
    ラベルと当該ラベルの付与対象となる複数の単語とを対応づけた情報であるラベル設計を記憶するステップと、
    前記ラベル設計において前記ラベルに対応づけられている前記単語を特徴量に基づきベクトル化した単語ベクトルを生成するステップと、
    前記単語ベクトルをクラスタリングするステップと、
    前記クラスタリングの結果と、前記ラベル設計における前記ラベルと前記単語の関係とを比較することにより前記ラベル設計の補正要否を判定するステップと、
    を実行する、ラベル設計支援方法。
  12. 請求項11に記載のラベル設計支援方法であって、
    前記情報処理装置が、単語数が最大のクラスタである代表クラスタの単語が複数のラベルに対応付けられているか否かを判定することにより、前記ラベル設計の補正要否を判定するステップ、
    を更に実行する、ラベル設計支援方法。
  13. 請求項12に記載のラベル設計支援方法であって、
    前記情報処理装置が、
    前記ラベル設計について補正要と判定した場合に、前記ラベル設計の補正案を生成するステップを更に実行し
    前記代表クラスタの単語が複数のラベルに対応付けられていると判定した場合に、前記ラベル設計の補正案を生成するステップにおいて、クラスタリングした各クラスタに前記ラベルの夫々を対応づけた内容の前記ラベル設計の補正案を生成する
    ラベル設計支援方法。
  14. 請求項11に記載のラベル設計支援方法であって、
    前記情報処理装置が、前記ラベルごとに、単語数が最大のクラスタである代表クラスタの重心からの各単語の平均距離が所定範囲内である否かを判定することにより、前記ラベル設計の補正要否を判定するステップ、
    を更に実行する、ラベル設計支援方法。
  15. 請求項14に記載のラベル設計支援方法であって、
    前記情報処理装置が、
    前記ラベル設計について補正要と判定した場合に、前記ラベル設計の補正案を生成するステップを更に実行し
    単語数が最大のクラスタである代表クラスタの重心からの各単語の平均距離が所定範囲内でないと判定したラベルについて、前記ラベル設計の補正案を生成するステップにおいて、前記平均距離が前記所定範囲内になるように前記ラベルを設定し直した内容の前記ラベル設計の補正案を生成する
    ラベル設計支援方法。
JP2020073448A 2020-04-16 2020-04-16 ラベル設計支援装置、及びラベル設計支援方法 Active JP7425662B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020073448A JP7425662B2 (ja) 2020-04-16 2020-04-16 ラベル設計支援装置、及びラベル設計支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020073448A JP7425662B2 (ja) 2020-04-16 2020-04-16 ラベル設計支援装置、及びラベル設計支援方法

Publications (2)

Publication Number Publication Date
JP2021170255A JP2021170255A (ja) 2021-10-28
JP7425662B2 true JP7425662B2 (ja) 2024-01-31

Family

ID=78150077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020073448A Active JP7425662B2 (ja) 2020-04-16 2020-04-16 ラベル設計支援装置、及びラベル設計支援方法

Country Status (1)

Country Link
JP (1) JP7425662B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011118723A1 (ja) 2010-03-26 2011-09-29 日本電気株式会社 意味抽出装置、意味抽出方法、および、記録媒体
JP2019012457A (ja) 2017-06-30 2019-01-24 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011118723A1 (ja) 2010-03-26 2011-09-29 日本電気株式会社 意味抽出装置、意味抽出方法、および、記録媒体
JP2019012457A (ja) 2017-06-30 2019-01-24 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP2021170255A (ja) 2021-10-28

Similar Documents

Publication Publication Date Title
KR102703923B1 (ko) 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법
JP5512489B2 (ja) ファイル管理装置及びファイル管理方法
US8732173B2 (en) Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program
JP5834883B2 (ja) 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
JP2013080375A (ja) 個人情報匿名化装置及び方法
KR102046692B1 (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
US9552415B2 (en) Category classification processing device and method
JP2014067154A (ja) 文書分類支援装置、方法及びプログラム
US11244109B2 (en) Information processing device and information processing method
JP5836893B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
JP5215046B2 (ja) 文書分類装置
JP4795856B2 (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP7425662B2 (ja) ラベル設計支援装置、及びラベル設計支援方法
JP2016027493A (ja) 文書分類支援装置、方法及びプログラム
JP7364512B2 (ja) ラベル付与モデル生成装置、及びラベル付与モデル生成方法
JP2022052481A (ja) 説明文出力装置、説明文出力プログラム及び説明文出力方法
JP5942981B2 (ja) 要約作成装置、要約作成方法、およびプログラム
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
JP7442430B2 (ja) 審査支援システム、及び審査支援方法
Safaei et al. Multidimensional indexing technique for medical images retrieval
WO2024127832A1 (ja) 計算機システム及び文書分析方法
JP2015022723A (ja) 文書を検索する装置及び方法
US11328501B2 (en) Computer-readable recording medium recording specifying program, information processing apparatus, and specifying method
JP7478585B2 (ja) プログラム部品評価システム、及びプログラム部品評価方法
JP2023134907A (ja) 業務分析支援システム、及び業務分析支援方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240119

R150 Certificate of patent or registration of utility model

Ref document number: 7425662

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150