JP2020042386A - 対象データに対して関連付けるラベルを決定する計算機システム - Google Patents

対象データに対して関連付けるラベルを決定する計算機システム Download PDF

Info

Publication number
JP2020042386A
JP2020042386A JP2018167544A JP2018167544A JP2020042386A JP 2020042386 A JP2020042386 A JP 2020042386A JP 2018167544 A JP2018167544 A JP 2018167544A JP 2018167544 A JP2018167544 A JP 2018167544A JP 2020042386 A JP2020042386 A JP 2020042386A
Authority
JP
Japan
Prior art keywords
label
character string
computer system
target
certainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018167544A
Other languages
English (en)
Inventor
彬 童
Bin Tong
彬 童
正裕 本林
Masahiro Motobayashi
正裕 本林
義行 小林
Yoshiyuki Kobayashi
義行 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018167544A priority Critical patent/JP2020042386A/ja
Publication of JP2020042386A publication Critical patent/JP2020042386A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】対象データに関連付けるべきラベルを効率的に決定する。【解決手段】計算機システムは、1以上のプロセッサと、前記1以上のプロセッサが実行するプログラムを含むデータを格納する1以上の記憶装置と、を含む。前記1以上のプロセッサは、対象データを取得し、前記対象データから、1以上の分類モデルを使用して、複数ラベルそれぞれの確信度を決定し、前記確信度のうち最も高い確信度が第1閾値を超える場合に、前記最も高い確信度のラベルを前記対象データに関連付けるラベルと決定し、前記最も高い確信度が第1閾値以下である場合に、前記複数ラベルの内の一部のラベルを、前記対象データに関連付けるラベルの候補と決定する。【選択図】図1

Description

本発明は、対象データに対して関連付けるラベルを決定する計算機システムに関する。
本願の背景技術として、例えば、特許文献1がある。特許文献1において、「情報のカテゴリを特定するカテゴリ識別子と、情報を特定する仮想情報識別子及び情報の実体の物理的な格納場所を示す1つ以上の実情報ポインタの対応表であるデータベースファイルとを対応付けた仮想情報蓄積部を作成し、実情報ポインタで示される格納場所に情報の実体を蓄積した実情報蓄積部を作成し、仮想情報蓄積部内でカテゴリ識別子に対応するデータベースファイルを検索し、検索されたデータベースファイル内で仮想情報識別子に対応する実情報ポインタを検索し、検索された実情報ポインタによって実情報蓄積部内に蓄積された情報の実体を抽出し、抽出した情報の実体内に他の情報のカテゴリ識別子及び仮想情報識別子が記述されている場合に検索及び抽出処理を繰り返すものである。」(要約)と開示されている。
特開平10−162019号公報
作業者が、対象データに対してラベルを登録する作業がある。たとえば、資産の仕分け作業は、資産名称、資産属性(構造・型式・能力等)、製造者など文字列(対象データ)に対して、資産の耐用年数コードを登録する。このような作業は、作業者が行うことで高い精度で正確なラベルを関連付けることができるが、多くの人的労力及び時間を必要とする。
本開示の一態様の計算機システムは、1以上のプロセッサと、前記1以上のプロセッサが実行するプログラムを含むデータを格納する1以上の記憶装置と、を含む。前記1以上のプロセッサは、対象データを取得し、前記対象データから、1以上の分類モデルを使用して、複数ラベルそれぞれの確信度を決定し、前記確信度のうち最も高い確信度が第1閾値を超える場合に、前記最も高い確信度のラベルを前記対象データに関連付けるラベルと決定し、前記最も高い確信度が第1閾値以下である場合に、前記複数ラベルの内の一部のラベルを、前記対象データに関連付けるラベルの候補と決定する。
本開示の一態様によれば、対象データに関連付けるべきラベルを効率的に決定することができる。
ラベル推定装置を含む計算機システムの構成例を示す。 資産管理テーブルの構成例を示す。 資産の情報を資産管理テーブルに登録するためのグラフィカルユーザインタフェースの例を示す。 ルールテーブルの構成例を示す。 ルールテーブルにおける資産名称についてルールの生成及び登録の方法を示す。 資産名称ルール生成のための一時テーブルの構成例を示す 文字列分類モデルの訓練の方法例を示すフローチャートである。 埋め込みベクトルテーブルの構成例を示す。 オペレーションモードにおいて、入力された資産情報に対する耐用年数コードを推定する方法例を示すフローチャートである。 ルールテーブルを使用して、対象文字列に関連付ける耐用年数コードを決定する処理の詳細を示すフローチャートである。 文字列分類モデル及び画像分類モデルを使用して、対象資産に関連付ける耐用年数コードを推定する処理の詳細を示すフローチャートである。 耐用年数コードの候補を決定するステップの詳細を示すフローチャートである。 複数の文字列分類モデルを使用する例を示す。 ラベル推定装置を含む計算機システムの構成例を示す。 第1確信度の調整方法の例を示すフローチャートである。 ラベル推定装置を含む計算機システムの構成例を示す。 第1確信度の調整方法の例を示すフローチャートである。
以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。
実施形態1
図1は、ラベル推定装置100を含む計算機システムの構成例を示す。ラベル推定装置100は、プロセッサ110、メモリ120、補助記憶装置130、及びネットワーク(NW)インタフェース145を含む。上記構成要素は、バスによって互いに接続されている。メモリ120、補助記憶装置130又はこれらの組み合わせは記憶装置である。
メモリ120は、例えば半導体メモリから構成され、主にプログラムやデータを一時的に保持するために利用される。メモリ120が格納しているプログラムは、文字列分類モデル121、画像分類モデル122、訓練プログラム123、ラベル推定プログラム124、及びルールテーブル管理プログラム125を含む。
プロセッサ110は、メモリ120に格納されているプログラムに従って、様々な処理を実行する。プロセッサ110がプログラムに従って動作することで、様々な機能部が実現される。例えば、プロセッサ110は、上記プログラムそれぞれに従って、文字列分類モデル部、画像分類モデル部、訓練プログラム部、ラベル推定部、及びルールテーブル管理部として動作する。
補助記憶装置130は、訓練データ131、ルールテーブル132、資産管理テーブル133、及び埋め込みベクトルテーブル134を格納している。補助記憶装置130は、例えばハードディスクドライブやソリッドステートドライブなどの大容量の記憶装置から構成され、プログラムやデータを長期間保持するために利用される。
補助記憶装置130に格納されたプログラム及びデータが起動時又は必要時にメモリ120にロードされ、プログラムをプロセッサ110が実行することにより、ラベル推定装置100の各種処理が実行される。したがって、以下においてプログラムにより実行される処理は、プロセッサ110又はラベル推定装置100による処理である。
ネットワークインタフェース145は、ネットワークとの接続のためのインタフェースである。図1の例において、ラベル推定装置100は、ネットワークを介してクライアント装置144と通信する。クライアント装置144は、ユーザが使用する装置であって、ネットワーク介して、ラベル推定装置100にアクセスする。
クライアント装置144は、例えば、一般的な計算機構成を有し、入力デバイス及び表示デバイス(出力デバイス)を含む。入力デバイスは、ユーザがラベル推定装置100に指示や情報などを入力するためのハードウェアデバイスである。表示デバイスは、入出力用の各種画像を表示するハードウェアデバイスである。
ラベル推定装置100及びクライアント装置144は、1以上のプロセッサ及び1以上の記憶装置を含む計算機システムを構成する。クライアント装置144は省略されてもよく、入力デバイス及び表示デバイスが、ネットワークを介することなく、ラベル推定装置100に接続されていてもよい。ラベル推定装置100はネットワークを介して通信を行う複数の計算機を含んでもよく、複数のクライアント装置が計算機システムに含まれてよい。
文字列分類モデル121及び画像分類モデル122は、機械学習により訓練される(更新される)モデルである。文字列分類モデル121は、分類に使用できる任意の構成を有することができ、例えば、サポートベクタマシン、ランダムフォレスト又はニューラルネットワークである。画像分類モデル122は、分類に使用できる任意の構成を有することができ、一例は、畳み込みニューラルネットワークである。
ラベル推定装置100は、これらモデルのための、訓練モード(学習モード)とオペレーションモードを有する。文字列分類モデル121及び画像分類モデル122は、それぞれ、訓練モードにおいて、訓練プログラム123により訓練される。文字列分類モデル121及び画像分類モデル122の訓練のため、訓練データ131が使用される。
文字列分類モデル121及び画像分類モデル122は、オペレーションモードにおいて、ラベル推定プログラム124によって使用される。文字列分類モデル121及び画像分類モデル122は、対象資産(を表す対象データ)に対して関連付けるべきラベルを推定するために使用される。
以下に説明する例において、ラベル推定プログラム124は、対象資産に対して関連付けるべき耐用年数コードを推定する。決定された耐用年数コードは、対象資産を表すデータ(対象データ)と共に、資産管理テーブル133に格納される。対象資産を表す対象データは、文字列と画像とを含む。
ルールテーブル管理プログラム125は、ルールテーブル132を管理する。具体的には、ルールテーブル管理プログラム125は、ルールテーブル132を作成及び更新する。ルールテーブル132は、オペレーションモードにおいて、ラベル推定プログラム124によって使用される。
ルールテーブル132は、単語と耐用年数コード(ラベル)とを関連付ける。ラベル推定プログラム124は、文字列分類モデル121及び画像分類モデル122による推定の前に、ルールテーブル132を使用して資産に対する耐用年数コード(ラベル)を決定するように試みる。ルールテーブル132は、文字列分類モデル121及び画像分類モデル122よりも高い正解率で耐用年数コードを推定することができる。したがって、分類モデルよりもルールテーブル132を優先して使用することにより、資産の耐用年数コードをより正確に決定できる。
図2は、資産管理テーブル133の構成例を示す。資産管理テーブル133は、資産の情報を管理する。資産管理テーブル133は、資産IDカラム331、資産名称カラム332、資産属性(構造・型式・能力)カラム333、製造者カラム334、画像データカラム335及び耐用年数コードカラム336を有する。一つのエントリ(レコード)が一つの資産の情報を示す。
資産IDカラム331は、資産のIDを格納する。資産名称カラム332は、資産名称を格納する。資産属性(構造・型式・能力)カラム333は、資産の属性の情報、本例において、構造・型式・能力の情報を格納する。製造者カラム334は、資産の製造者を格納する。画像データカラム335は、資産の画像データを格納する。耐用年数コードカラム336は、資産の耐用年数コードを格納する。
資産名称、資産属性(構造・型式・能力)、及び製造者の複数項目の文字列は、資産の情報を示す文字列である。画像データカラム335に格納されている画像は、例えば、資産そのものの画像である。耐用年数コードは、資産に関連付けるラベルの例である。ラベル推定装置100は、資産管理テーブル133を作成及び更新する。
ラベル推定装置100は、例えば、ユーザインタフェースを介してユーザによって入力された資産の文字列及び画像から、耐用年数コードを推定する。または、例えば、1又は複数の資産の文字列及び画像を含むデータセットが記憶装置に格納されており、ラベル推定装置100は、資産の文字列及び画像のペアを順次選択して、耐用年数コードを推定する。ラベル推定装置100は、最終的に決定された資産の耐用年数コード、文字列及び画像を、資産管理テーブル133に追加する。
図3は、資産の情報を資産管理テーブル133に登録するためのグラフィカルユーザインタフェース(GUI)の例を示す。GUI画像400は、例えば、クライアント装置144の表示装置により表示される。GUI画像400は、資産名称、資産属性及び製造者それぞれを入力するためのテキストボックス401、402及び403を含む。GUI画像400は、さらに、画像データの格納位置を示すテキストボックス404を含む。
入力デバイスからテキストボックス401〜404にデータが入力され、推定ボタン406が押下されると、ラベル推定プログラム124は、入力された資産情報に対応する1又は複数の耐用年数コードを推定し、ドロップダウンリスト405に表示する。入力デバイスにより一つの耐用年数コードが決定(選択)され、登録ボタン407が押下されると、ラベル推定プログラム124は、入力された資産情報及び決定された耐用年数コードを資産管理テーブル133に登録する。
ラベル推定プログラム124は、後述するように、所定条件を満たす一つのみの耐用年数コードが推定された場合、当該耐用年数コードを対象資産に関連付ける耐用年数コードと決定し、資産管理テーブル133に登録する。ラベル推定プログラム124は、ユーザの許可を得ることなく又は耐用年数コードをユーザに提示することなく、当該耐用年数コードを資産管理テーブル133に登録してもよい。
ラベル推定プログラム124は、登録後に耐用年数コードを表示デバイスにおいてユーザに提示してもよく、入力デバイスを介したユーザによる許可を受けた後に、当該耐用年数コードを資産管理テーブル133に登録してもよい。
後述するように、ラベル推定プログラム124は、文字列分類モデル121及び画像分類モデル122を使用した耐用年数コードの推定処理の前に、ルールテーブル132を使用した推定処理を行う。ラベル推定プログラム124は、ルールテーブル132を使用した推定処理が耐用年数コードを推定できない場合に、文字列分類モデル121及び画像分類モデル122を使用した推定処理を実行する。
図4は、ルールテーブル132の構成例を示す。ルールテーブル132は、項目カラム321、チャンクカラム322及び耐用年数カラム323を有する。項目カラム321は、資産の文字列の項目を示す。本例において、項目は、資産名称、資産属性及び製造者である。ルールテーブル132は、資産名称、資産属性及び製造者の各項目において、チャンクと耐用年数コードとを一対一で対応付ける。
チャンクカラム322は、各項目の文字列から抽出されたチャンクを格納する。チャンクは、文字列における単語の語幹である。語幹は単語の一種である。例えば、資産名称が「バッテリ圧着器」である場合、「バッテリ」及び「圧着器」がチャンクとして抽出される。耐用年数カラム323は、チャンクカラム322の各チャンクに対応する一つのみの耐用年数コードを示す。
図5は、ルールテーブル132における資産名称についてルールの生成及び登録の方法を示す。同法の方法により、資産属性及び製造者のルールが生成され、ルールテーブル132に登録される。ルールテーブル管理プログラム125は、訓練データ131を参照して、ルールテーブル132を生成及び更新する。
図5を参照して、ルールテーブル管理プログラム125は、訓練データ131から未選択の一つのエントリの資産名称を選択する(S101)。訓練データ131は、資産管理テーブル133と同様の構成を有し、資産それぞれの正しい情報が格納されている。ルールテーブル管理プログラム125は、選択した資産名称をパージングし(S102)、資産名称のチャンクを抽出する(S103)。
ルールテーブル管理プログラム125は、抽出したチャンクと、チャンクに対応する耐用年数コードとを、一時テーブルに格納する(S104)。対応する耐用年数コードは、選択したエントリの耐用年数コードである。図6は、資産名称ルール生成のための一時テーブルの構成例127を示す。
一時テーブル127は、チャンクカラム271及び耐用年数コードカラム272を有する。抽出したチャンクが新たなチャンクである場合、ルールテーブル管理プログラム125は、当該チャンク及び対応する耐用年数のエントリを追加する。ルールテーブル管理プログラム125は、選択したチャンクが既にチャンクカラム271に存在する場合、耐用年数コードカラム272において、当該チャンクのエントリに、耐用年数コードを追加する。
図5に戻って、ルールテーブル管理プログラム125は、訓練データ131から全エントリの資産名称を選択したか判定する(S105)。未選択の資産名称が残っている場合(S105:NO)、ルールテーブル管理プログラム125は、ステップS101に戻る。
全エントリの資産名称を選択されている場合(S105:YES)、ルールテーブル管理プログラム125は、一時テーブル127から、一つの耐用年数コードのみに関連付けられているチャンクを選択する(S106)。ルールテーブル管理プログラム125は、選択したチャンクと、関連づけられている耐用年数コードとを、ルールテーブル132に追加する(S107)。
ルールテーブル132が示すルールは、文字列の単語と耐用年数コードとを一対一で対応付けるため、文字列分類モデル121及び画像分類モデル122を使用した耐用年数コードの推定よりも正確に(高い確信度で)耐用年数コードを推定することができる。
図7は、文字列分類モデル121の訓練(学習)の方法例を示すフローチャートである。訓練プログラム123は、訓練データ131から、一つの未選択のエントリを選択する(S151)。訓練プログラム123は、エントリの資産名称、資産属性及び製造者の文字列から、チャンクを抽出する(S152)。訓練プログラム123は、抽出したチャンクそれぞれに対応する埋め込みベクトルを、埋め込みベクトルテーブル134から取得する(S153)。
図8は、埋め込みベクトルテーブル134の構成例を示す。埋め込みベクトルテーブル134は、単語カラム341及び埋め込みベクトルカラム342を有する。単語カラム341は、単語の語幹を格納している。埋め込みベクトルカラム342は、単語カラム341の単語それぞれに対応する埋め込みベクトルを格納している。埋め込みベクトルは、単語を特定の空間にマッピングして得られるベクトルである。単語埋め込み技術及び埋め込みベクトルは公知の技術であり、詳細を省略する。
図7に戻って、訓練プログラム123は、取得した埋め込みベクトルから、一つの埋め込みベクトルを生成する(S154)。例えば、一つの埋め込みベクトルは、取得した複数の埋め込みベクトルの平均ベクトルである。訓練プログラム123は、生成した一つの埋め込みベクトルと選択したエントリの耐用年数コードとからなるペアを、訓練用バッチデータに含める(S155)。
訓練プログラム123は、訓練データ131から全エントリ(又は規定数のエントリ)を選択したか判定する(S156)。選択したエントリの数が全エントリ(又は規定数のエントリ)ではない場合(S156:NO)、訓練プログラム123は、ステップS151に戻る。選択したエントリが全エントリ(又は規定数のエントリ)である場合(S156:YES)、訓練プログラム123は、訓練用バッチデータにより、文字列分類モデル121のパラメータを更新(文字列分類モデル121を訓練)する(S157)。
文字列分類モデル121の入力は、ステップS154で生成された埋め込みベクトルである。文字列分類モデル121は、資産管理テーブル133に登録可能な耐用年数コードそれぞれが、文字列に関連付けるべき耐用年数コードである確率、つまり、確信度を出力する。文字列分類モデル121のパラメータの更新方法は、文字列分類モデル121の構成に依存する。
訓練プログラム123は、画像分類モデル122を、同様に、訓練(更新)する。画像分類モデル122の入力は、例えば、資産の画像データそのものであり、出力は、文字列分類モデル121と同様に、耐用年数コードそれぞれの確信度である。
図9Aは、オペレーションモードにおいて、入力された資産情報(対象資産の情報)に対する耐用年数コードを推定する方法例を示すフローチャートである。ラベル推定プログラム124は、一つの対象資産の対象データ、具体的には、対象文字列及び対象画像を取得する(S201)。対象文字列は、資産名称、資産属性及び製造者からなる文字列である。対象文字列及び対象画像は、例えば、GUI画像400を介してユーザにより入力され、クライアント装置144から転送される。
ラベル推定プログラム124は、ルールテーブル132を参照し、取得した対象文字列から、関連付けるべき唯一の耐用年数コードを決定可能であるか判定する(S202)。具体的には、ラベル推定プログラム124は、文字列の項目(資産名称、資産属性及び製造者)を順次選択し、選択した項目の文字列をパージングしてチャンクを抽出する。ラベル推定プログラム124は、抽出したチャンクをルールテーブル132において検索する。検索したチャンクがルールテーブルに存在する場合、ルールテーブルを使用して、対応する耐用年数コードを決定することができる。
ルールテーブル132を参照し、取得した対象文字列から、関連付けるべき一つの耐用年数コードを決定可能である場合(S202:YES)、ラベル推定プログラム124は、ルールテーブル132を使用して、対象文字列(対象資産)に関連付ける耐用年数コードを決定する(S203)。
ルールテーブル132を使用して対象文字列(対象資産)に関連付ける耐用年数コードを決定することができない場合(S202:NO)、ラベル推定プログラム124は、文字列分類モデル121及び画像分類モデル122を使用して、対象資産に関連付ける耐用年数コードを推定する(S204)。
図9Bは、ルールテーブル132を使用して、対象文字列(対象資産)に関連付ける耐用年数コードを決定する処理(S203)の詳細を示すフローチャートである。ラベル推定プログラム124は、対象文字列における、未選択の対象項目を選択する(S221)。対象項目は、資産名称、資産属性又は製造者である。
ラベル推定プログラム124は、対象項目の文字列をパージングし(S222)、文字列のチャンクを抽出する(S223)。ラベル推定プログラム124は、抽出したチャンクを順次選択してルールテーブル132で検索する(S224)。チャンクがルールテーブル132に存在する場合(S225:YES)、ラベル推定プログラム124は、当該チャンクにルールテーブル132で関連付けられている耐用年数コードを取得し、当該耐用年数コードを対象資産に関連付けるコードと決定する(S226)。
現在項目の文字列から抽出したいずれのチャンクもルールテーブル132に存在しない場合(S225:NO)、ラベル推定プログラム124は、全項目が選択済みであるか判定する(S227)。未選択の項目が存在する場合(S227:NO)、ラベル推定プログラム124は、ステップS221に戻る。全ての項目が選択済みである場合(S227:YES)、ラベル推定プログラム124は、ステップS204に進む。
図9Cは、文字列分類モデル121及び画像分類モデル122を使用して、対象資産に関連付ける耐用年数コードを推定する処理(S204)の詳細を示すフローチャートである。ラベル推定プログラム124は、対象資産の資産名称、資産属性及び製造者の文字列から、チャンクを抽出する(S241)。
ラベル推定プログラム124は、抽出したチャンクそれぞれに対応する埋め込みベクトルを、埋め込みベクトルテーブル134から取得する(S242)。ラベル推定プログラム124は、取得した埋め込みベクトルから、一つの埋め込みベクトルを生成する(S243)。生成される埋め込みベクトルは、例えば、チャンクの埋め込みベクトルの平均ベクトルである。
ラベル推定プログラム124は、一つの埋め込みベクトルを文字列分類モデル121に入力して、登録可能な複数の耐用年数コードそれぞれの確信度(文字列確信度)を決定する(S244)。文字列確信度は、文字列分類モデル121の出力である。ラベル推定プログラム124は、対象資産の対象画像を、画像分類モデル122に入力して、複数の耐用年数コードそれぞれの確信度(画像確信度)を決定する(S245)。画像確信度は、画像分類モデル122の出力である。
ラベル推定プログラム124は、文字列分類モデル121による文字列確信度と画像分類モデル122による画像確信度とから、複数の耐用年数コードそれぞれの確信度(第1確信度)を決定する(S246)。当該第1確信度は、例えば、文字列分類モデル121による文字列確信度と画像分類モデル122による画像確信度の加重平均である。つまり、その値は、ax+(1−a)yにより計算される。ここで、aは0より大きく1より小さい重み係数であり、x及びyはそれぞれ、文字列分類モデル121による文字列確信度及び画像分類モデル122による画像確信度である。x及びyは、0以上1以下である。
ラベル推定プログラム124は、複数の耐用年数コードの第1確信度のうち、最も高い確信度と第1閾値とを比較する(S247)。最も高い確信度が第1閾値よりも高い場合(S247:YES)、ラベル推定プログラム124は、最も高い確信度の耐用年数コードを、対象資産に関連付ける耐用年数コードと決定する(S248)。ラベル推定プログラム124は、決定した耐用年数コードをクライアント装置144の表示デバイスで表示する。ラベル推定プログラム124は、決定した耐用年数コードをユーザの指示なく又は指示に応答して、資産管理テーブル133に資産情報と共に登録する。
最も高い確信度が第1閾値以下である場合(S247:NO)、ラベル推定プログラム124は、登録可能な複数の耐用年数コードの内の一部の複数の耐用年数コードを、対象資産に関連付ける耐用年数コードの候補と決定する(S249)。
図9Dは、耐用年数コードの候補を決定するステップ(S249)の詳細を示すフローチャートである。ラベル推定プログラム124は、登録可能な複数耐用年数コードから、第1確信度が第2閾値より低い耐用年数コードを除外する(S261)。第2閾値は、第1閾値よりも小さい。
ラベル推定プログラム124は、全耐用年数コードが除外されたか判定する(S262)。耐用年数コードが残っている場合(S262:NO)、ラベル推定プログラム124は、残っている耐用年数コードから、第1確信度が上位である、規定数の耐用年数コードを選択する(S263)。つまり、最も高い第1確信度から第1確信度高い順に、規定数の耐用年数コードが選択される。残数が規定数未満の場合は、残っている全ての耐用年数コードが選択される。
ラベル推定プログラム124は、選択した耐用年数コードを対象資産に関連付けるコードの候補と決定し、推奨耐用年数コードとして提示する(S264)。具体的には、ラベル推定プログラム124は、推奨耐用年数コードをクライアント装置144の表示デバイスにおいて表示する。ラベル推定プログラム124は、クライアント装置144においてユーザに選択された耐用年数コードを、対象資産と関連付けて資産管理テーブル133に登録する。
全耐用年数コードの第1確信度が第2閾値より低く、全耐用年数コードが除外されている場合(S262:YES)、ラベル推定プログラム124は、対象文字列と訓練データ131の文字列の類似度を計算する(S265)。例えば、ラベル推定プログラム124は、比較する文字列それぞれからチャンクを抽出し、さらに、抽出したチャンクの埋め込みベクトルを埋め込みベクトルテーブル134から取得する。
ラベル推定プログラム124は、文字列それぞれの埋め込みベクトルから一つの埋め込みベクトルを生成する。例えば、文字列それぞれの埋め込みベクトルの平均ベクトルを生成する。ラベル推定プログラム124は、生成した二つの埋め込みベクトルの類似度を計算する。埋め込みベクトルの類似度は、ベクトル空間における距離から計算できる。
ラベル推定プログラム124は、複数の耐用年数コードから、類似度が高い順に、最も高い類似度の耐用年数コードから規定数の耐用年数コードを選択する(S266)。ラベル推定プログラム124は、選択した耐用年数コードを対象資産に関連付けるコードの候補と決定し、推奨コードとしてユーザに提示する(S267)。具体的には、ラベル推定プログラム124は、推奨耐用年数コードをクライアント装置144の表示デバイスにおいて表示する。ラベル推定プログラム124は、クライアント装置144においてユーザに選択された耐用年数コードを、対象資産と関連付けて資産管理テーブル133に登録する。
上述のように、モデルを使用して決定した確信度に基づいて、資産に関連付ける耐用資産コードを自動的に決定する又は耐用資産コードの候補を推薦することで、正しい耐用資産コードを資産に効率的に関連付けることができる。また、ルールテーブル132を使用して耐用年数コードを決定できない場合に、文字列分類モデル121及び画像分類モデル122を使用して耐用年数コードを推定することで、対応付ける耐用年数コードの正確性を上げることができる。
文字列分類モデル121及び画像分類モデル122の双方を使用することで、耐用年数コードのより正確な推定が可能となる。分類モデルを使用して決定した確信度が低い場合に、類似度に基づいて耐用資産コードの候補を推薦することで対応付ける耐用年数コードの正確性を上げることができる。
上記例は、一つの文字列分類モデル121及び一つの画像分類モデル122のみを使用して、対象資産の対象文字列に関連付ける耐用年数コードを推定する。これと異なり、ラベル推定装置100は、構成が異なる複数の文字列分類モデル及び/又は複数の画像分類モデルを使用してもよい。これらモデルは訓練データ131で学習できる。
構成が異なる複数のモデルを使用することで、より高い精度で耐用年数コードを推定することができる。構成が異なるモデルは、例えば、サポートベクタマシンやニューラルネットワークのようにアルゴリズムが異なるモデルや、ノード構成が異なるニューラルネットワーク等である。
図10は複数の文字列分類モデルを使用する例を示す。ラベル推定プログラム124は、三つの文字列分類モデル121A、121B及び121Cそれぞれを使用して、登録可能な複数耐用年数コードそれぞれの確信度を計算する(S281、S282、S283)。
ラベル推定プログラム124は、各耐用年数コードの三つの文字列分類モデル121A、121B及び121Cの確信度から、三つの文字列分類モデル全体の確信度(文字列確信度)を計算する(S284)。三つの文字列分類モデル全体の確信度は、例えば、三つの文字列分類モデルそれぞれの確信度の平均値である。ラベル推定プログラム124は、三つの文字列分類モデル全体の文字列確信度と画像分類モデル122の画像確信度から、耐用年数コードの確信度を計算する(S246)。
なお、上記対象データに対するラベルの推定方法は、資産の仕分け以外の用途に利用することができる。ルールテーブル132及びそれを使用した耐用年数コードの推定は省略されてもよい。文字列分類モデル121及び画像分類モデル122の一方のみを使用して確信度を決定してもよい。
類似度を使用した耐用年数コードの候補の決定は省略されてもよい。類似度を使用した耐用年数コードの候補の決定が省略される場合、分類モデルによる確信度によらず、分類モデルの確信度の上位の所定数の耐用年数コードが、対象資産に関連付ける耐用年数コード候補として提示される。これらの点は、他の実施形態において同様である。
実施形態2
以下において、耐用年数コードの出現頻度に基づく確信度の調整を説明する。訓練データ131における耐用年数コードの出願頻度分布はアンバランスであるので、出現が低い耐用年数コードに対する分類モデルの確信度は低くなる傾向がある。そのため、出現頻度によらず固定の第1閾値を使用することは、ラベル推定装置100が対象資産に対して関連付ける耐用年数コードを自動的に決定する可能性を低下させる。
1又は複数の分類モデルを使用して決定した確信度を出現頻度で調整することで、推定精度の低下を抑制しつつ、耐用年数コードが自動的に決定される可能性を高めることができる。
以下において、実施形態1との相違点を主に説明する。図11は、ラベル推定装置100を含む計算機システムの構成例を示す。図1に示す構成例に対して、補助記憶装置130に格納されている出現頻度テーブル135が追加されている。出現頻度テーブル135は、耐用年数コードと出現頻度との関係を示す。
図12は、第1確信度の調整方法の例を示すフローチャートである。ラベル推定プログラム124は、実施形態1において図9を参照して説明したように、耐用年数コードそれぞれの第1確信度を計算する(S301)。ラベル推定プログラム124は、最も高い第1確信度を選択し、その耐用年数コードを決定する(S302)。
ラベル推定プログラム124は、出現頻度テーブル135から、選択した耐用年数コードの出現頻度の値を取得し、調整因子を計算する(S303)。調整因子の例は、exp(1−wc/Σwi)である。wcは、第1確信度が最も高い耐用年数コードの出現頻度である。Σwiは、全ての耐用年数コードの出現頻度の和である。調整因子は、出現頻度の増加と共に減少する。
ラベル推定プログラム124は、計算した調整因子によって最も高い第1確信度を調整する(S304)。例えば、ラベル推定プログラム124は、最も高い第1確信度Pcに、調整因子exp(1−wc/Σwi)を掛ける。ラベル推定プログラム124は、調整した第1確信度と第1閾値とを比較する(S305)。
上述のように、最も高い第1確信度を、出願頻度が低い程増加と共に減少するように調整することで、出現頻度が低い耐用年数コードを自動的に資産に対応付けるコードを決定する可能性を高めることができる。上述のように、調整因子は、第1確信度を第1閾値との比較において調整する。したがって、第1確信度と第1閾値のいずれの一方又は双方を調整してもよい。
例えば、調整因子を第1確信度に掛けることは、第1閾値を調整因子で割ることと同義である。第1確信度に調整因子を掛けて値が第1閾値より大きいことは、第1確信度が第1閾値を調整因子で割った値(調整された第1閾値)より大きいことと同義である。このように、ラベル推定プログラム124は、予め設定されている第1閾値に対する第1確信度の相対値が、出現頻度が低い程高くなるように、調整因子により第1確信度及び/又は第1閾値を調整する。
次に、第1確信度の他の調整方法を説明する。ラベル推定プログラム124は、耐用年数コードの出現頻度分布が異なる訓練データにより訓練されたモデルの第1確信度を使用して、対象の第1確信度を調整する。
図13は、ラベル推定装置100を含む計算機システムの構成例を示す。図11に示す構成例に対して、補助記憶装置130に格納されている複数の第2出現頻度テーブル535及び複数の第2訓練データ531が追加されている。さらに、メモリ120に格納されている複数の第2文字列分類モデル521及び複数の第2画像分類モデル522が追加されている。文字列分類モデル521の構成は同一でも異なっていてもよい。画像分類モデル522の構成は同一でも異なっていてもよい。
一つの第2文字列分類モデル521、一つの複数の第2画像分類モデル522、一つの第2訓練データ531及び一つの第2出現頻度テーブル535が一つのグループを構成する。複数のグループのデータが、ラベル推定装置100に格納されている。同一グループにおいて、第2文字列分類モデル521及び第2画像分類モデル522は、第2訓練データ531により訓練されている。第2出現頻度テーブル535は、第2訓練データ531における耐用年数コードの出願頻度分布を示す。異なるグループは、例えば、異なる会社又は異なる部門のデータである。
図14は、第1確信度の調整方法の例を示すフローチャートである。ラベル推定プログラム124は、実施形態1において図9Cを参照して説明したように、耐用年数コードそれぞれの第1確信度を計算する(S351)。ラベル推定プログラム124は、最も高い第1確信度を選択し、その耐用年数コード(対象耐用年数コード)を決定する(S352)。
ラベル推定プログラム124は、出現頻度テーブル535のそれぞれを参照し、上記対象耐用年数コードの出現頻度が最も高いグループを選択する(S353)。ラベル推定プログラム124は、選択したグループにおける上記耐用年数コードの第1確信度から調整因子を計算する(S354)。
具体的には、ラベル推定プログラム124は、選択したグループにおいて、第2文字列分類モデル521及び第2画像分類モデル522によって、対象資産(対象文字列及び対象画像)に対する、対象耐用年数コードの第1確信度を計算する。一例において、この第1確信度を調整因子として使用する。
他の例において、ラベル推定プログラム124は、対象文字列との類似度が上位の複数(規定数)の資産を選択する。ラベル推定プログラム124は、選択した資産それぞれの対象耐用年数コードの第1確信度を計算し、それらに基づき調整因子を計算する。例えば、調整因子は選択した資産に対する対象耐用年数コードの第1確信度の加重平均値である。
ラベル推定プログラム124は、計算した調整因子を使用して、ステップS352で選択した最も高い第1確信度を調整し(S355)、その調整された値と第1閾値とを比較する(S356)。調整の一例は、選択した最も高い第1確信度と調整因子の加重平均である。つまり、調整結果は、αPc+(1−α)Poにより計算される。ここで、αは0より大きく1より小さい重み係数であり、Pcは選択した最も高い第1確信度、Poは調整因子である。
上記例は、対象耐用年数コードの出現頻度が最も高いグループを選択するが、これと異なり、対象耐用年数コードの出願頻度が上位の複数のグループを選択し、複数のグループにおける対象資産に対する対象耐用年数コードの確信度を計算してもよい。これら確信度を使用して対象耐用年数コードの確信度を調整してもよい。
なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
100 タグ推定装置 、110 プロセッサ、120 メモリ、121 文字列分類モデル、122 画像分類モデル、123 訓練プログラム、124 ラベル推定プログラム、125 ルールテーブル管理プログラム130 補助記憶装置、131 訓練データ、132 ルールテーブル、133 資産管理テーブル、134 埋め込みベクトルテーブル、135 出現頻度テーブル、521 第2文字列分類モデル、522 第2画像分類モデル、531 第2訓練データ、535 第2出現頻度テーブル

Claims (10)

  1. 1以上のプロセッサと、
    前記1以上のプロセッサが実行するプログラムを含むデータを格納する1以上の記憶装置と、を含む計算機システムであって、
    前記1以上のプロセッサは、
    対象データを取得し、
    前記対象データから、1以上の分類モデルを使用して、複数ラベルそれぞれの確信度を決定し、
    前記確信度のうち最も高い確信度が第1閾値を超える場合に、前記最も高い確信度のラベルを前記対象データに関連付けるラベルと決定し、
    前記最も高い確信度が第1閾値以下である場合に、前記複数ラベルの内の一部のラベルを、前記対象データに関連付けるラベルの候補と決定する、計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記対象データは対象文字列を含み、
    前記1以上の記憶装置は、単語とラベルとを関連付けるルールテーブルを格納し、
    前記1以上のプロセッサは、
    前記確信度を決定する前に、前記対象文字列から1以上の単語を抽出し、
    前記1以上の単語の一つの単語が前記ルールテーブルにおいてラベルと関連付けられている場合、前記ルールテーブルにおいて前記一つの単語に関連付けられている前記ラベルを、前記対象データに関連付けるラベルと決定する、計算機システム。
  3. 請求項1に記載の計算機システムであって、
    前記一部のラベルの確信度は、前記複数ラベルにおける他のラベルの確信度より高い、計算機システム。
  4. 請求項1に記載の計算機システムであって、
    前記対象データは対象文字列を含み、
    前記1以上の記憶装置は、前記1以上の分類モデルの訓練データを格納し、
    前記訓練データは、複数の文字列と前記複数の文字列に関連付けられているラベルとを含み、
    前記1以上のプロセッサは、
    前記最も高い確信度が前記第1閾値より小さい第2閾値未満の場合に、前記訓練データから前記対象文字列との類似度に基づき複数の文字列を選択し、前記訓練データにおいて前記選択された複数の文字列それぞれに対応するラベルを前記対象文字列に関連付けるラベルの候補と決定する、計算機システム。
  5. 請求項1に記載の計算機システムであって、
    前記対象データは対象文字列及び対象画像を含み、
    前記1以上の分類モデルは、1以上の文字列分類モデルと1以上の画像分類モデルとを含み、
    前記1以上のプロセッサは、
    前記対象文字列から、前記1以上の文字列分類モデルを使用して、前記複数ラベルそれぞれの文字列確信度を決定し、
    前記対象画像から、前記1以上の画像分類モデルを使用して、前記複数ラベルそれぞれの画像確信度を決定し、
    前記複数ラベルそれぞれの前記文字列確信度及び前記画像確信度に基づき、前記複数ラベルそれぞれの確信度を決定する、計算機システム。
  6. 請求項1に記載の計算機システムであって、
    前記1以上の分類モデルは、同一の訓練データによって訓練され異なる構成を有する複数の分類モデルを含む、計算機システム。
  7. 請求項1に記載の計算機システムであって、
    前記対象データは対象文字列を含み、
    前記1以上の分類モデルは、1以上の文字列分類モデルを含み、
    前記1以上の記憶装置は、前記1以上の文字列分類モデルの訓練データにおける前記複数ラベルの出現頻度の情報を格納し、
    前記1以上のプロセッサは、
    前記最も高い確信度の出現頻度に基づいて、前記最も高い確信度値及び前記予め設定されている閾値の少なくとも一方の調整を行い、
    前記調整の後に、前記最も高い確信度及び前記予め設定されている閾値を比較することによって、前記調整前の前記最も高い確信度が前記第1閾値より大きいか判定する、計算機システム。
  8. 請求項1に記載の計算機システムであって、
    前記対象データは対象文字列を含み、
    前記1以上の分類モデルは、1以上の文字列分類モデルを含み、
    前記1以上の記憶装置は、
    前記1以上の文字分類モデルの第1訓練データにおける前記複数ラベルの出現頻度の情報と、
    前記第1訓練データと異なる第2訓練データにおける前記複数ラベルの出現頻度の情報と、を格納し、
    前記最も高い確信度のラベルの出願頻度が前記第2訓練データにおいて前記第1訓練データよりも高く、
    前記1以上のプロセッサは、
    前記対象データから、前記第2訓練データにより訓練された1以上の第2分類モデルを使用して、前記最も高い確信度のラベルの確信度を決定し、
    前記1以上の第2分類モデルを使用して決定された確信度に基づいて、前記最も高い確信度値及び前記予め設定されている閾値の少なくとも一方の調整を行い、
    前記調整の後に、前記最も高い確信度及び前記予め設定されている閾値を比較することによって、前記調整前の前記最も高い確信度が前記第1閾値より大きいか判定する、計算機システム。
  9. 請求項1に記載の計算機システムであって、
    出力デバイスをさらに含み、
    前記1以上のプロセッサは、前記最も高い確信度が第1閾値以下である場合に、前記対象データに関連付けるラベルの候補を前記出力デバイスに出力する、計算機システム。
  10. 計算機システムが対象データに関連付けるラベルを決定する方法であって、
    前記計算機システムが、対象データを取得し、
    前記計算機システムが、前記対象データから、1以上の分類モデルを使用して、複数ラベルそれぞれの確信度を決定し、
    前記計算機システムが、前記確信度のうち最も高い確信度が第1閾値を超える場合に、前記最も高い確信度のラベルを前記対象データに関連付けるラベルと決定し、
    前記計算機システムが、前記最も高い確信度が第1閾値以下である場合に、前記複数ラベルの内の一部のラベルを、前記対象データに関連付けるラベルの候補と決定する、ことを含む方法。
JP2018167544A 2018-09-07 2018-09-07 対象データに対して関連付けるラベルを決定する計算機システム Pending JP2020042386A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018167544A JP2020042386A (ja) 2018-09-07 2018-09-07 対象データに対して関連付けるラベルを決定する計算機システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018167544A JP2020042386A (ja) 2018-09-07 2018-09-07 対象データに対して関連付けるラベルを決定する計算機システム

Publications (1)

Publication Number Publication Date
JP2020042386A true JP2020042386A (ja) 2020-03-19

Family

ID=69798607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018167544A Pending JP2020042386A (ja) 2018-09-07 2018-09-07 対象データに対して関連付けるラベルを決定する計算機システム

Country Status (1)

Country Link
JP (1) JP2020042386A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021241173A1 (ja) * 2020-05-27 2021-12-02 コニカミノルタ株式会社 学習装置、学習方法及び学習プログラム、認識装置、認識方法及び認識プログラム並びに学習認識装置
JP2022002099A (ja) * 2021-03-25 2022-01-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データをラベリングするための方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021241173A1 (ja) * 2020-05-27 2021-12-02 コニカミノルタ株式会社 学習装置、学習方法及び学習プログラム、認識装置、認識方法及び認識プログラム並びに学習認識装置
JP2022002099A (ja) * 2021-03-25 2022-01-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データをラベリングするための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US11604766B2 (en) 2021-03-25 2023-03-14 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device, storage medium and computer program product for labeling data
JP7270691B2 (ja) 2021-03-25 2023-05-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド データをラベリングするための方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Similar Documents

Publication Publication Date Title
CN109670267B (zh) 一种数据处理方法和装置
US10380498B1 (en) Platform services to enable one-click execution of the end-to-end sequence of modeling steps
US8479165B1 (en) System for testing operation of software
JP2021518024A (ja) 機械学習アルゴリズムのためのデータを生成する方法、システム
US11704677B2 (en) Customer support ticket aggregation using topic modeling and machine learning techniques
CN111522989B (zh) 用于图像检索的方法、计算设备和计算机存储介质
JP2010020490A (ja) 未訪問地の情報提供装置及び未訪問地の情報提供方法
CN110163252B (zh) 数据分类方法及装置、电子设备、存储介质
CN110705245A (zh) 一种获取参考处理方案的方法及装置、存储介质
US10572881B2 (en) Applying entity search techniques to expedite entitlement resolution in support services
US20170147652A1 (en) Search servers, end devices, and search methods for use in a distributed network
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
AU2018205089A1 (en) Determination of task automation using natural language processing
US11200527B2 (en) Platform for evaluating and recommending process automations
US11869050B2 (en) Facilitating responding to multiple product or service reviews associated with multiple sources
US20230368028A1 (en) Automated machine learning pre-trained model selector
JP6856503B2 (ja) 印象推定モデル学習装置、印象推定装置、印象推定モデル学習方法、印象推定方法、およびプログラム
JP2020042386A (ja) 対象データに対して関連付けるラベルを決定する計算機システム
US10248462B2 (en) Management server which constructs a request load model for an object system, load estimation method thereof and storage medium for storing program
JP6832903B2 (ja) 情報検索システムおよび方法
US11645279B2 (en) Index selection for database query
US8001122B2 (en) Relating similar terms for information retrieval
JP7275591B2 (ja) 評価支援プログラム、評価支援方法および情報処理装置
JP2023029604A (ja) 特許情報処理装置、特許情報処理方法、およびプログラム
US20220036006A1 (en) Feature vector generation for probabalistic matching