JP2020042386A

JP2020042386A - 対象データに対して関連付けるラベルを決定する計算機システム

Info

Publication number: JP2020042386A
Application number: JP2018167544A
Authority: JP
Inventors: 彬童; Bin Tong; 正裕本林; Masahiro Motobayashi; 義行小林; Yoshiyuki Kobayashi
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2020-03-19

Abstract

【課題】対象データに関連付けるべきラベルを効率的に決定する。【解決手段】計算機システムは、１以上のプロセッサと、前記１以上のプロセッサが実行するプログラムを含むデータを格納する１以上の記憶装置と、を含む。前記１以上のプロセッサは、対象データを取得し、前記対象データから、１以上の分類モデルを使用して、複数ラベルそれぞれの確信度を決定し、前記確信度のうち最も高い確信度が第１閾値を超える場合に、前記最も高い確信度のラベルを前記対象データに関連付けるラベルと決定し、前記最も高い確信度が第１閾値以下である場合に、前記複数ラベルの内の一部のラベルを、前記対象データに関連付けるラベルの候補と決定する。【選択図】図１

Description

本発明は、対象データに対して関連付けるラベルを決定する計算機システムに関する。

本願の背景技術として、例えば、特許文献１がある。特許文献１において、「情報のカテゴリを特定するカテゴリ識別子と、情報を特定する仮想情報識別子及び情報の実体の物理的な格納場所を示す１つ以上の実情報ポインタの対応表であるデータベースファイルとを対応付けた仮想情報蓄積部を作成し、実情報ポインタで示される格納場所に情報の実体を蓄積した実情報蓄積部を作成し、仮想情報蓄積部内でカテゴリ識別子に対応するデータベースファイルを検索し、検索されたデータベースファイル内で仮想情報識別子に対応する実情報ポインタを検索し、検索された実情報ポインタによって実情報蓄積部内に蓄積された情報の実体を抽出し、抽出した情報の実体内に他の情報のカテゴリ識別子及び仮想情報識別子が記述されている場合に検索及び抽出処理を繰り返すものである。」（要約）と開示されている。

特開平１０−１６２０１９号公報

作業者が、対象データに対してラベルを登録する作業がある。たとえば、資産の仕分け作業は、資産名称、資産属性（構造・型式・能力等）、製造者など文字列（対象データ）に対して、資産の耐用年数コードを登録する。このような作業は、作業者が行うことで高い精度で正確なラベルを関連付けることができるが、多くの人的労力及び時間を必要とする。

本開示の一態様の計算機システムは、１以上のプロセッサと、前記１以上のプロセッサが実行するプログラムを含むデータを格納する１以上の記憶装置と、を含む。前記１以上のプロセッサは、対象データを取得し、前記対象データから、１以上の分類モデルを使用して、複数ラベルそれぞれの確信度を決定し、前記確信度のうち最も高い確信度が第１閾値を超える場合に、前記最も高い確信度のラベルを前記対象データに関連付けるラベルと決定し、前記最も高い確信度が第１閾値以下である場合に、前記複数ラベルの内の一部のラベルを、前記対象データに関連付けるラベルの候補と決定する。

本開示の一態様によれば、対象データに関連付けるべきラベルを効率的に決定することができる。

ラベル推定装置を含む計算機システムの構成例を示す。資産管理テーブルの構成例を示す。資産の情報を資産管理テーブルに登録するためのグラフィカルユーザインタフェースの例を示す。ルールテーブルの構成例を示す。ルールテーブルにおける資産名称についてルールの生成及び登録の方法を示す。資産名称ルール生成のための一時テーブルの構成例を示す文字列分類モデルの訓練の方法例を示すフローチャートである。埋め込みベクトルテーブルの構成例を示す。オペレーションモードにおいて、入力された資産情報に対する耐用年数コードを推定する方法例を示すフローチャートである。ルールテーブルを使用して、対象文字列に関連付ける耐用年数コードを決定する処理の詳細を示すフローチャートである。文字列分類モデル及び画像分類モデルを使用して、対象資産に関連付ける耐用年数コードを推定する処理の詳細を示すフローチャートである。耐用年数コードの候補を決定するステップの詳細を示すフローチャートである。複数の文字列分類モデルを使用する例を示す。ラベル推定装置を含む計算機システムの構成例を示す。第１確信度の調整方法の例を示すフローチャートである。ラベル推定装置を含む計算機システムの構成例を示す。第１確信度の調整方法の例を示すフローチャートである。

以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。

実施形態１
図１は、ラベル推定装置１００を含む計算機システムの構成例を示す。ラベル推定装置１００は、プロセッサ１１０、メモリ１２０、補助記憶装置１３０、及びネットワーク（ＮＷ）インタフェース１４５を含む。上記構成要素は、バスによって互いに接続されている。メモリ１２０、補助記憶装置１３０又はこれらの組み合わせは記憶装置である。

メモリ１２０は、例えば半導体メモリから構成され、主にプログラムやデータを一時的に保持するために利用される。メモリ１２０が格納しているプログラムは、文字列分類モデル１２１、画像分類モデル１２２、訓練プログラム１２３、ラベル推定プログラム１２４、及びルールテーブル管理プログラム１２５を含む。

プロセッサ１１０は、メモリ１２０に格納されているプログラムに従って、様々な処理を実行する。プロセッサ１１０がプログラムに従って動作することで、様々な機能部が実現される。例えば、プロセッサ１１０は、上記プログラムそれぞれに従って、文字列分類モデル部、画像分類モデル部、訓練プログラム部、ラベル推定部、及びルールテーブル管理部として動作する。

補助記憶装置１３０は、訓練データ１３１、ルールテーブル１３２、資産管理テーブル１３３、及び埋め込みベクトルテーブル１３４を格納している。補助記憶装置１３０は、例えばハードディスクドライブやソリッドステートドライブなどの大容量の記憶装置から構成され、プログラムやデータを長期間保持するために利用される。

補助記憶装置１３０に格納されたプログラム及びデータが起動時又は必要時にメモリ１２０にロードされ、プログラムをプロセッサ１１０が実行することにより、ラベル推定装置１００の各種処理が実行される。したがって、以下においてプログラムにより実行される処理は、プロセッサ１１０又はラベル推定装置１００による処理である。

ネットワークインタフェース１４５は、ネットワークとの接続のためのインタフェースである。図１の例において、ラベル推定装置１００は、ネットワークを介してクライアント装置１４４と通信する。クライアント装置１４４は、ユーザが使用する装置であって、ネットワーク介して、ラベル推定装置１００にアクセスする。

クライアント装置１４４は、例えば、一般的な計算機構成を有し、入力デバイス及び表示デバイス（出力デバイス）を含む。入力デバイスは、ユーザがラベル推定装置１００に指示や情報などを入力するためのハードウェアデバイスである。表示デバイスは、入出力用の各種画像を表示するハードウェアデバイスである。

ラベル推定装置１００及びクライアント装置１４４は、１以上のプロセッサ及び１以上の記憶装置を含む計算機システムを構成する。クライアント装置１４４は省略されてもよく、入力デバイス及び表示デバイスが、ネットワークを介することなく、ラベル推定装置１００に接続されていてもよい。ラベル推定装置１００はネットワークを介して通信を行う複数の計算機を含んでもよく、複数のクライアント装置が計算機システムに含まれてよい。

文字列分類モデル１２１及び画像分類モデル１２２は、機械学習により訓練される（更新される）モデルである。文字列分類モデル１２１は、分類に使用できる任意の構成を有することができ、例えば、サポートベクタマシン、ランダムフォレスト又はニューラルネットワークである。画像分類モデル１２２は、分類に使用できる任意の構成を有することができ、一例は、畳み込みニューラルネットワークである。

ラベル推定装置１００は、これらモデルのための、訓練モード（学習モード）とオペレーションモードを有する。文字列分類モデル１２１及び画像分類モデル１２２は、それぞれ、訓練モードにおいて、訓練プログラム１２３により訓練される。文字列分類モデル１２１及び画像分類モデル１２２の訓練のため、訓練データ１３１が使用される。

文字列分類モデル１２１及び画像分類モデル１２２は、オペレーションモードにおいて、ラベル推定プログラム１２４によって使用される。文字列分類モデル１２１及び画像分類モデル１２２は、対象資産（を表す対象データ）に対して関連付けるべきラベルを推定するために使用される。

以下に説明する例において、ラベル推定プログラム１２４は、対象資産に対して関連付けるべき耐用年数コードを推定する。決定された耐用年数コードは、対象資産を表すデータ（対象データ）と共に、資産管理テーブル１３３に格納される。対象資産を表す対象データは、文字列と画像とを含む。

ルールテーブル管理プログラム１２５は、ルールテーブル１３２を管理する。具体的には、ルールテーブル管理プログラム１２５は、ルールテーブル１３２を作成及び更新する。ルールテーブル１３２は、オペレーションモードにおいて、ラベル推定プログラム１２４によって使用される。

ルールテーブル１３２は、単語と耐用年数コード（ラベル）とを関連付ける。ラベル推定プログラム１２４は、文字列分類モデル１２１及び画像分類モデル１２２による推定の前に、ルールテーブル１３２を使用して資産に対する耐用年数コード（ラベル）を決定するように試みる。ルールテーブル１３２は、文字列分類モデル１２１及び画像分類モデル１２２よりも高い正解率で耐用年数コードを推定することができる。したがって、分類モデルよりもルールテーブル１３２を優先して使用することにより、資産の耐用年数コードをより正確に決定できる。

図２は、資産管理テーブル１３３の構成例を示す。資産管理テーブル１３３は、資産の情報を管理する。資産管理テーブル１３３は、資産ＩＤカラム３３１、資産名称カラム３３２、資産属性（構造・型式・能力）カラム３３３、製造者カラム３３４、画像データカラム３３５及び耐用年数コードカラム３３６を有する。一つのエントリ（レコード）が一つの資産の情報を示す。

資産ＩＤカラム３３１は、資産のＩＤを格納する。資産名称カラム３３２は、資産名称を格納する。資産属性（構造・型式・能力）カラム３３３は、資産の属性の情報、本例において、構造・型式・能力の情報を格納する。製造者カラム３３４は、資産の製造者を格納する。画像データカラム３３５は、資産の画像データを格納する。耐用年数コードカラム３３６は、資産の耐用年数コードを格納する。

資産名称、資産属性（構造・型式・能力）、及び製造者の複数項目の文字列は、資産の情報を示す文字列である。画像データカラム３３５に格納されている画像は、例えば、資産そのものの画像である。耐用年数コードは、資産に関連付けるラベルの例である。ラベル推定装置１００は、資産管理テーブル１３３を作成及び更新する。

ラベル推定装置１００は、例えば、ユーザインタフェースを介してユーザによって入力された資産の文字列及び画像から、耐用年数コードを推定する。または、例えば、１又は複数の資産の文字列及び画像を含むデータセットが記憶装置に格納されており、ラベル推定装置１００は、資産の文字列及び画像のペアを順次選択して、耐用年数コードを推定する。ラベル推定装置１００は、最終的に決定された資産の耐用年数コード、文字列及び画像を、資産管理テーブル１３３に追加する。

図３は、資産の情報を資産管理テーブル１３３に登録するためのグラフィカルユーザインタフェース（ＧＵＩ）の例を示す。ＧＵＩ画像４００は、例えば、クライアント装置１４４の表示装置により表示される。ＧＵＩ画像４００は、資産名称、資産属性及び製造者それぞれを入力するためのテキストボックス４０１、４０２及び４０３を含む。ＧＵＩ画像４００は、さらに、画像データの格納位置を示すテキストボックス４０４を含む。

入力デバイスからテキストボックス４０１〜４０４にデータが入力され、推定ボタン４０６が押下されると、ラベル推定プログラム１２４は、入力された資産情報に対応する１又は複数の耐用年数コードを推定し、ドロップダウンリスト４０５に表示する。入力デバイスにより一つの耐用年数コードが決定（選択）され、登録ボタン４０７が押下されると、ラベル推定プログラム１２４は、入力された資産情報及び決定された耐用年数コードを資産管理テーブル１３３に登録する。

ラベル推定プログラム１２４は、後述するように、所定条件を満たす一つのみの耐用年数コードが推定された場合、当該耐用年数コードを対象資産に関連付ける耐用年数コードと決定し、資産管理テーブル１３３に登録する。ラベル推定プログラム１２４は、ユーザの許可を得ることなく又は耐用年数コードをユーザに提示することなく、当該耐用年数コードを資産管理テーブル１３３に登録してもよい。

ラベル推定プログラム１２４は、登録後に耐用年数コードを表示デバイスにおいてユーザに提示してもよく、入力デバイスを介したユーザによる許可を受けた後に、当該耐用年数コードを資産管理テーブル１３３に登録してもよい。

後述するように、ラベル推定プログラム１２４は、文字列分類モデル１２１及び画像分類モデル１２２を使用した耐用年数コードの推定処理の前に、ルールテーブル１３２を使用した推定処理を行う。ラベル推定プログラム１２４は、ルールテーブル１３２を使用した推定処理が耐用年数コードを推定できない場合に、文字列分類モデル１２１及び画像分類モデル１２２を使用した推定処理を実行する。

図４は、ルールテーブル１３２の構成例を示す。ルールテーブル１３２は、項目カラム３２１、チャンクカラム３２２及び耐用年数カラム３２３を有する。項目カラム３２１は、資産の文字列の項目を示す。本例において、項目は、資産名称、資産属性及び製造者である。ルールテーブル１３２は、資産名称、資産属性及び製造者の各項目において、チャンクと耐用年数コードとを一対一で対応付ける。

チャンクカラム３２２は、各項目の文字列から抽出されたチャンクを格納する。チャンクは、文字列における単語の語幹である。語幹は単語の一種である。例えば、資産名称が「バッテリ圧着器」である場合、「バッテリ」及び「圧着器」がチャンクとして抽出される。耐用年数カラム３２３は、チャンクカラム３２２の各チャンクに対応する一つのみの耐用年数コードを示す。

図５は、ルールテーブル１３２における資産名称についてルールの生成及び登録の方法を示す。同法の方法により、資産属性及び製造者のルールが生成され、ルールテーブル１３２に登録される。ルールテーブル管理プログラム１２５は、訓練データ１３１を参照して、ルールテーブル１３２を生成及び更新する。

図５を参照して、ルールテーブル管理プログラム１２５は、訓練データ１３１から未選択の一つのエントリの資産名称を選択する（Ｓ１０１）。訓練データ１３１は、資産管理テーブル１３３と同様の構成を有し、資産それぞれの正しい情報が格納されている。ルールテーブル管理プログラム１２５は、選択した資産名称をパージングし（Ｓ１０２）、資産名称のチャンクを抽出する（Ｓ１０３）。

ルールテーブル管理プログラム１２５は、抽出したチャンクと、チャンクに対応する耐用年数コードとを、一時テーブルに格納する（Ｓ１０４）。対応する耐用年数コードは、選択したエントリの耐用年数コードである。図６は、資産名称ルール生成のための一時テーブルの構成例１２７を示す。

一時テーブル１２７は、チャンクカラム２７１及び耐用年数コードカラム２７２を有する。抽出したチャンクが新たなチャンクである場合、ルールテーブル管理プログラム１２５は、当該チャンク及び対応する耐用年数のエントリを追加する。ルールテーブル管理プログラム１２５は、選択したチャンクが既にチャンクカラム２７１に存在する場合、耐用年数コードカラム２７２において、当該チャンクのエントリに、耐用年数コードを追加する。

図５に戻って、ルールテーブル管理プログラム１２５は、訓練データ１３１から全エントリの資産名称を選択したか判定する（Ｓ１０５）。未選択の資産名称が残っている場合（Ｓ１０５：ＮＯ）、ルールテーブル管理プログラム１２５は、ステップＳ１０１に戻る。

全エントリの資産名称を選択されている場合（Ｓ１０５：ＹＥＳ）、ルールテーブル管理プログラム１２５は、一時テーブル１２７から、一つの耐用年数コードのみに関連付けられているチャンクを選択する（Ｓ１０６）。ルールテーブル管理プログラム１２５は、選択したチャンクと、関連づけられている耐用年数コードとを、ルールテーブル１３２に追加する（Ｓ１０７）。

ルールテーブル１３２が示すルールは、文字列の単語と耐用年数コードとを一対一で対応付けるため、文字列分類モデル１２１及び画像分類モデル１２２を使用した耐用年数コードの推定よりも正確に（高い確信度で）耐用年数コードを推定することができる。

図７は、文字列分類モデル１２１の訓練（学習）の方法例を示すフローチャートである。訓練プログラム１２３は、訓練データ１３１から、一つの未選択のエントリを選択する（Ｓ１５１）。訓練プログラム１２３は、エントリの資産名称、資産属性及び製造者の文字列から、チャンクを抽出する（Ｓ１５２）。訓練プログラム１２３は、抽出したチャンクそれぞれに対応する埋め込みベクトルを、埋め込みベクトルテーブル１３４から取得する（Ｓ１５３）。

図８は、埋め込みベクトルテーブル１３４の構成例を示す。埋め込みベクトルテーブル１３４は、単語カラム３４１及び埋め込みベクトルカラム３４２を有する。単語カラム３４１は、単語の語幹を格納している。埋め込みベクトルカラム３４２は、単語カラム３４１の単語それぞれに対応する埋め込みベクトルを格納している。埋め込みベクトルは、単語を特定の空間にマッピングして得られるベクトルである。単語埋め込み技術及び埋め込みベクトルは公知の技術であり、詳細を省略する。

図７に戻って、訓練プログラム１２３は、取得した埋め込みベクトルから、一つの埋め込みベクトルを生成する（Ｓ１５４）。例えば、一つの埋め込みベクトルは、取得した複数の埋め込みベクトルの平均ベクトルである。訓練プログラム１２３は、生成した一つの埋め込みベクトルと選択したエントリの耐用年数コードとからなるペアを、訓練用バッチデータに含める（Ｓ１５５）。

訓練プログラム１２３は、訓練データ１３１から全エントリ（又は規定数のエントリ）を選択したか判定する（Ｓ１５６）。選択したエントリの数が全エントリ（又は規定数のエントリ）ではない場合（Ｓ１５６：ＮＯ）、訓練プログラム１２３は、ステップＳ１５１に戻る。選択したエントリが全エントリ（又は規定数のエントリ）である場合（Ｓ１５６：ＹＥＳ）、訓練プログラム１２３は、訓練用バッチデータにより、文字列分類モデル１２１のパラメータを更新（文字列分類モデル１２１を訓練）する（Ｓ１５７）。

文字列分類モデル１２１の入力は、ステップＳ１５４で生成された埋め込みベクトルである。文字列分類モデル１２１は、資産管理テーブル１３３に登録可能な耐用年数コードそれぞれが、文字列に関連付けるべき耐用年数コードである確率、つまり、確信度を出力する。文字列分類モデル１２１のパラメータの更新方法は、文字列分類モデル１２１の構成に依存する。

訓練プログラム１２３は、画像分類モデル１２２を、同様に、訓練（更新）する。画像分類モデル１２２の入力は、例えば、資産の画像データそのものであり、出力は、文字列分類モデル１２１と同様に、耐用年数コードそれぞれの確信度である。

図９Ａは、オペレーションモードにおいて、入力された資産情報（対象資産の情報）に対する耐用年数コードを推定する方法例を示すフローチャートである。ラベル推定プログラム１２４は、一つの対象資産の対象データ、具体的には、対象文字列及び対象画像を取得する（Ｓ２０１）。対象文字列は、資産名称、資産属性及び製造者からなる文字列である。対象文字列及び対象画像は、例えば、ＧＵＩ画像４００を介してユーザにより入力され、クライアント装置１４４から転送される。

ラベル推定プログラム１２４は、ルールテーブル１３２を参照し、取得した対象文字列から、関連付けるべき唯一の耐用年数コードを決定可能であるか判定する（Ｓ２０２）。具体的には、ラベル推定プログラム１２４は、文字列の項目（資産名称、資産属性及び製造者）を順次選択し、選択した項目の文字列をパージングしてチャンクを抽出する。ラベル推定プログラム１２４は、抽出したチャンクをルールテーブル１３２において検索する。検索したチャンクがルールテーブルに存在する場合、ルールテーブルを使用して、対応する耐用年数コードを決定することができる。

ルールテーブル１３２を参照し、取得した対象文字列から、関連付けるべき一つの耐用年数コードを決定可能である場合（Ｓ２０２：ＹＥＳ）、ラベル推定プログラム１２４は、ルールテーブル１３２を使用して、対象文字列（対象資産）に関連付ける耐用年数コードを決定する（Ｓ２０３）。

ルールテーブル１３２を使用して対象文字列（対象資産）に関連付ける耐用年数コードを決定することができない場合（Ｓ２０２：ＮＯ）、ラベル推定プログラム１２４は、文字列分類モデル１２１及び画像分類モデル１２２を使用して、対象資産に関連付ける耐用年数コードを推定する（Ｓ２０４）。

図９Ｂは、ルールテーブル１３２を使用して、対象文字列（対象資産）に関連付ける耐用年数コードを決定する処理（Ｓ２０３）の詳細を示すフローチャートである。ラベル推定プログラム１２４は、対象文字列における、未選択の対象項目を選択する（Ｓ２２１）。対象項目は、資産名称、資産属性又は製造者である。

ラベル推定プログラム１２４は、対象項目の文字列をパージングし（Ｓ２２２）、文字列のチャンクを抽出する（Ｓ２２３）。ラベル推定プログラム１２４は、抽出したチャンクを順次選択してルールテーブル１３２で検索する（Ｓ２２４）。チャンクがルールテーブル１３２に存在する場合（Ｓ２２５：ＹＥＳ）、ラベル推定プログラム１２４は、当該チャンクにルールテーブル１３２で関連付けられている耐用年数コードを取得し、当該耐用年数コードを対象資産に関連付けるコードと決定する（Ｓ２２６）。

現在項目の文字列から抽出したいずれのチャンクもルールテーブル１３２に存在しない場合（Ｓ２２５：ＮＯ）、ラベル推定プログラム１２４は、全項目が選択済みであるか判定する（Ｓ２２７）。未選択の項目が存在する場合（Ｓ２２７：ＮＯ）、ラベル推定プログラム１２４は、ステップＳ２２１に戻る。全ての項目が選択済みである場合（Ｓ２２７：ＹＥＳ）、ラベル推定プログラム１２４は、ステップＳ２０４に進む。

図９Ｃは、文字列分類モデル１２１及び画像分類モデル１２２を使用して、対象資産に関連付ける耐用年数コードを推定する処理（Ｓ２０４）の詳細を示すフローチャートである。ラベル推定プログラム１２４は、対象資産の資産名称、資産属性及び製造者の文字列から、チャンクを抽出する（Ｓ２４１）。

ラベル推定プログラム１２４は、抽出したチャンクそれぞれに対応する埋め込みベクトルを、埋め込みベクトルテーブル１３４から取得する（Ｓ２４２）。ラベル推定プログラム１２４は、取得した埋め込みベクトルから、一つの埋め込みベクトルを生成する（Ｓ２４３）。生成される埋め込みベクトルは、例えば、チャンクの埋め込みベクトルの平均ベクトルである。

ラベル推定プログラム１２４は、一つの埋め込みベクトルを文字列分類モデル１２１に入力して、登録可能な複数の耐用年数コードそれぞれの確信度（文字列確信度）を決定する（Ｓ２４４）。文字列確信度は、文字列分類モデル１２１の出力である。ラベル推定プログラム１２４は、対象資産の対象画像を、画像分類モデル１２２に入力して、複数の耐用年数コードそれぞれの確信度（画像確信度）を決定する（Ｓ２４５）。画像確信度は、画像分類モデル１２２の出力である。

ラベル推定プログラム１２４は、文字列分類モデル１２１による文字列確信度と画像分類モデル１２２による画像確信度とから、複数の耐用年数コードそれぞれの確信度（第１確信度）を決定する（Ｓ２４６）。当該第１確信度は、例えば、文字列分類モデル１２１による文字列確信度と画像分類モデル１２２による画像確信度の加重平均である。つまり、その値は、ａｘ＋（１−ａ）ｙにより計算される。ここで、ａは０より大きく１より小さい重み係数であり、ｘ及びｙはそれぞれ、文字列分類モデル１２１による文字列確信度及び画像分類モデル１２２による画像確信度である。ｘ及びｙは、０以上１以下である。

ラベル推定プログラム１２４は、複数の耐用年数コードの第１確信度のうち、最も高い確信度と第１閾値とを比較する（Ｓ２４７）。最も高い確信度が第１閾値よりも高い場合（Ｓ２４７：ＹＥＳ）、ラベル推定プログラム１２４は、最も高い確信度の耐用年数コードを、対象資産に関連付ける耐用年数コードと決定する（Ｓ２４８）。ラベル推定プログラム１２４は、決定した耐用年数コードをクライアント装置１４４の表示デバイスで表示する。ラベル推定プログラム１２４は、決定した耐用年数コードをユーザの指示なく又は指示に応答して、資産管理テーブル１３３に資産情報と共に登録する。

最も高い確信度が第１閾値以下である場合（Ｓ２４７：ＮＯ）、ラベル推定プログラム１２４は、登録可能な複数の耐用年数コードの内の一部の複数の耐用年数コードを、対象資産に関連付ける耐用年数コードの候補と決定する（Ｓ２４９）。

図９Ｄは、耐用年数コードの候補を決定するステップ（Ｓ２４９）の詳細を示すフローチャートである。ラベル推定プログラム１２４は、登録可能な複数耐用年数コードから、第１確信度が第２閾値より低い耐用年数コードを除外する（Ｓ２６１）。第２閾値は、第１閾値よりも小さい。

ラベル推定プログラム１２４は、全耐用年数コードが除外されたか判定する（Ｓ２６２）。耐用年数コードが残っている場合（Ｓ２６２：ＮＯ）、ラベル推定プログラム１２４は、残っている耐用年数コードから、第１確信度が上位である、規定数の耐用年数コードを選択する（Ｓ２６３）。つまり、最も高い第１確信度から第１確信度高い順に、規定数の耐用年数コードが選択される。残数が規定数未満の場合は、残っている全ての耐用年数コードが選択される。

ラベル推定プログラム１２４は、選択した耐用年数コードを対象資産に関連付けるコードの候補と決定し、推奨耐用年数コードとして提示する（Ｓ２６４）。具体的には、ラベル推定プログラム１２４は、推奨耐用年数コードをクライアント装置１４４の表示デバイスにおいて表示する。ラベル推定プログラム１２４は、クライアント装置１４４においてユーザに選択された耐用年数コードを、対象資産と関連付けて資産管理テーブル１３３に登録する。

全耐用年数コードの第１確信度が第２閾値より低く、全耐用年数コードが除外されている場合（Ｓ２６２：ＹＥＳ）、ラベル推定プログラム１２４は、対象文字列と訓練データ１３１の文字列の類似度を計算する（Ｓ２６５）。例えば、ラベル推定プログラム１２４は、比較する文字列それぞれからチャンクを抽出し、さらに、抽出したチャンクの埋め込みベクトルを埋め込みベクトルテーブル１３４から取得する。

ラベル推定プログラム１２４は、文字列それぞれの埋め込みベクトルから一つの埋め込みベクトルを生成する。例えば、文字列それぞれの埋め込みベクトルの平均ベクトルを生成する。ラベル推定プログラム１２４は、生成した二つの埋め込みベクトルの類似度を計算する。埋め込みベクトルの類似度は、ベクトル空間における距離から計算できる。

ラベル推定プログラム１２４は、複数の耐用年数コードから、類似度が高い順に、最も高い類似度の耐用年数コードから規定数の耐用年数コードを選択する（Ｓ２６６）。ラベル推定プログラム１２４は、選択した耐用年数コードを対象資産に関連付けるコードの候補と決定し、推奨コードとしてユーザに提示する（Ｓ２６７）。具体的には、ラベル推定プログラム１２４は、推奨耐用年数コードをクライアント装置１４４の表示デバイスにおいて表示する。ラベル推定プログラム１２４は、クライアント装置１４４においてユーザに選択された耐用年数コードを、対象資産と関連付けて資産管理テーブル１３３に登録する。

上述のように、モデルを使用して決定した確信度に基づいて、資産に関連付ける耐用資産コードを自動的に決定する又は耐用資産コードの候補を推薦することで、正しい耐用資産コードを資産に効率的に関連付けることができる。また、ルールテーブル１３２を使用して耐用年数コードを決定できない場合に、文字列分類モデル１２１及び画像分類モデル１２２を使用して耐用年数コードを推定することで、対応付ける耐用年数コードの正確性を上げることができる。

文字列分類モデル１２１及び画像分類モデル１２２の双方を使用することで、耐用年数コードのより正確な推定が可能となる。分類モデルを使用して決定した確信度が低い場合に、類似度に基づいて耐用資産コードの候補を推薦することで対応付ける耐用年数コードの正確性を上げることができる。

上記例は、一つの文字列分類モデル１２１及び一つの画像分類モデル１２２のみを使用して、対象資産の対象文字列に関連付ける耐用年数コードを推定する。これと異なり、ラベル推定装置１００は、構成が異なる複数の文字列分類モデル及び／又は複数の画像分類モデルを使用してもよい。これらモデルは訓練データ１３１で学習できる。

構成が異なる複数のモデルを使用することで、より高い精度で耐用年数コードを推定することができる。構成が異なるモデルは、例えば、サポートベクタマシンやニューラルネットワークのようにアルゴリズムが異なるモデルや、ノード構成が異なるニューラルネットワーク等である。

図１０は複数の文字列分類モデルを使用する例を示す。ラベル推定プログラム１２４は、三つの文字列分類モデル１２１Ａ、１２１Ｂ及び１２１Ｃそれぞれを使用して、登録可能な複数耐用年数コードそれぞれの確信度を計算する（Ｓ２８１、Ｓ２８２、Ｓ２８３）。

ラベル推定プログラム１２４は、各耐用年数コードの三つの文字列分類モデル１２１Ａ、１２１Ｂ及び１２１Ｃの確信度から、三つの文字列分類モデル全体の確信度（文字列確信度）を計算する（Ｓ２８４）。三つの文字列分類モデル全体の確信度は、例えば、三つの文字列分類モデルそれぞれの確信度の平均値である。ラベル推定プログラム１２４は、三つの文字列分類モデル全体の文字列確信度と画像分類モデル１２２の画像確信度から、耐用年数コードの確信度を計算する（Ｓ２４６）。

なお、上記対象データに対するラベルの推定方法は、資産の仕分け以外の用途に利用することができる。ルールテーブル１３２及びそれを使用した耐用年数コードの推定は省略されてもよい。文字列分類モデル１２１及び画像分類モデル１２２の一方のみを使用して確信度を決定してもよい。

類似度を使用した耐用年数コードの候補の決定は省略されてもよい。類似度を使用した耐用年数コードの候補の決定が省略される場合、分類モデルによる確信度によらず、分類モデルの確信度の上位の所定数の耐用年数コードが、対象資産に関連付ける耐用年数コード候補として提示される。これらの点は、他の実施形態において同様である。

実施形態２
以下において、耐用年数コードの出現頻度に基づく確信度の調整を説明する。訓練データ１３１における耐用年数コードの出願頻度分布はアンバランスであるので、出現が低い耐用年数コードに対する分類モデルの確信度は低くなる傾向がある。そのため、出現頻度によらず固定の第１閾値を使用することは、ラベル推定装置１００が対象資産に対して関連付ける耐用年数コードを自動的に決定する可能性を低下させる。

１又は複数の分類モデルを使用して決定した確信度を出現頻度で調整することで、推定精度の低下を抑制しつつ、耐用年数コードが自動的に決定される可能性を高めることができる。

以下において、実施形態１との相違点を主に説明する。図１１は、ラベル推定装置１００を含む計算機システムの構成例を示す。図１に示す構成例に対して、補助記憶装置１３０に格納されている出現頻度テーブル１３５が追加されている。出現頻度テーブル１３５は、耐用年数コードと出現頻度との関係を示す。

図１２は、第１確信度の調整方法の例を示すフローチャートである。ラベル推定プログラム１２４は、実施形態１において図９を参照して説明したように、耐用年数コードそれぞれの第１確信度を計算する（Ｓ３０１）。ラベル推定プログラム１２４は、最も高い第１確信度を選択し、その耐用年数コードを決定する（Ｓ３０２）。

ラベル推定プログラム１２４は、出現頻度テーブル１３５から、選択した耐用年数コードの出現頻度の値を取得し、調整因子を計算する（Ｓ３０３）。調整因子の例は、ｅｘｐ（１−ｗｃ／Σｗｉ）である。ｗｃは、第１確信度が最も高い耐用年数コードの出現頻度である。Σｗｉは、全ての耐用年数コードの出現頻度の和である。調整因子は、出現頻度の増加と共に減少する。

ラベル推定プログラム１２４は、計算した調整因子によって最も高い第１確信度を調整する（Ｓ３０４）。例えば、ラベル推定プログラム１２４は、最も高い第１確信度Ｐｃに、調整因子ｅｘｐ（１−ｗｃ／Σｗｉ）を掛ける。ラベル推定プログラム１２４は、調整した第１確信度と第１閾値とを比較する（Ｓ３０５）。

上述のように、最も高い第１確信度を、出願頻度が低い程増加と共に減少するように調整することで、出現頻度が低い耐用年数コードを自動的に資産に対応付けるコードを決定する可能性を高めることができる。上述のように、調整因子は、第１確信度を第１閾値との比較において調整する。したがって、第１確信度と第１閾値のいずれの一方又は双方を調整してもよい。

例えば、調整因子を第１確信度に掛けることは、第１閾値を調整因子で割ることと同義である。第１確信度に調整因子を掛けて値が第１閾値より大きいことは、第１確信度が第１閾値を調整因子で割った値（調整された第１閾値）より大きいことと同義である。このように、ラベル推定プログラム１２４は、予め設定されている第１閾値に対する第１確信度の相対値が、出現頻度が低い程高くなるように、調整因子により第１確信度及び／又は第１閾値を調整する。

次に、第１確信度の他の調整方法を説明する。ラベル推定プログラム１２４は、耐用年数コードの出現頻度分布が異なる訓練データにより訓練されたモデルの第１確信度を使用して、対象の第１確信度を調整する。

図１３は、ラベル推定装置１００を含む計算機システムの構成例を示す。図１１に示す構成例に対して、補助記憶装置１３０に格納されている複数の第２出現頻度テーブル５３５及び複数の第２訓練データ５３１が追加されている。さらに、メモリ１２０に格納されている複数の第２文字列分類モデル５２１及び複数の第２画像分類モデル５２２が追加されている。文字列分類モデル５２１の構成は同一でも異なっていてもよい。画像分類モデル５２２の構成は同一でも異なっていてもよい。

一つの第２文字列分類モデル５２１、一つの複数の第２画像分類モデル５２２、一つの第２訓練データ５３１及び一つの第２出現頻度テーブル５３５が一つのグループを構成する。複数のグループのデータが、ラベル推定装置１００に格納されている。同一グループにおいて、第２文字列分類モデル５２１及び第２画像分類モデル５２２は、第２訓練データ５３１により訓練されている。第２出現頻度テーブル５３５は、第２訓練データ５３１における耐用年数コードの出願頻度分布を示す。異なるグループは、例えば、異なる会社又は異なる部門のデータである。

図１４は、第１確信度の調整方法の例を示すフローチャートである。ラベル推定プログラム１２４は、実施形態１において図９Ｃを参照して説明したように、耐用年数コードそれぞれの第１確信度を計算する（Ｓ３５１）。ラベル推定プログラム１２４は、最も高い第１確信度を選択し、その耐用年数コード（対象耐用年数コード）を決定する（Ｓ３５２）。

ラベル推定プログラム１２４は、出現頻度テーブル５３５のそれぞれを参照し、上記対象耐用年数コードの出現頻度が最も高いグループを選択する（Ｓ３５３）。ラベル推定プログラム１２４は、選択したグループにおける上記耐用年数コードの第１確信度から調整因子を計算する（Ｓ３５４）。

具体的には、ラベル推定プログラム１２４は、選択したグループにおいて、第２文字列分類モデル５２１及び第２画像分類モデル５２２によって、対象資産（対象文字列及び対象画像）に対する、対象耐用年数コードの第１確信度を計算する。一例において、この第１確信度を調整因子として使用する。

他の例において、ラベル推定プログラム１２４は、対象文字列との類似度が上位の複数（規定数）の資産を選択する。ラベル推定プログラム１２４は、選択した資産それぞれの対象耐用年数コードの第１確信度を計算し、それらに基づき調整因子を計算する。例えば、調整因子は選択した資産に対する対象耐用年数コードの第１確信度の加重平均値である。

ラベル推定プログラム１２４は、計算した調整因子を使用して、ステップＳ３５２で選択した最も高い第１確信度を調整し（Ｓ３５５）、その調整された値と第１閾値とを比較する（Ｓ３５６）。調整の一例は、選択した最も高い第１確信度と調整因子の加重平均である。つまり、調整結果は、αＰｃ＋（１−α）Ｐｏにより計算される。ここで、αは０より大きく１より小さい重み係数であり、Ｐｃは選択した最も高い第１確信度、Ｐｏは調整因子である。

上記例は、対象耐用年数コードの出現頻度が最も高いグループを選択するが、これと異なり、対象耐用年数コードの出願頻度が上位の複数のグループを選択し、複数のグループにおける対象資産に対する対象耐用年数コードの確信度を計算してもよい。これら確信度を使用して対象耐用年数コードの確信度を調整してもよい。

なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

１００タグ推定装置、１１０プロセッサ、１２０メモリ、１２１文字列分類モデル、１２２画像分類モデル、１２３訓練プログラム、１２４ラベル推定プログラム、１２５ルールテーブル管理プログラム１３０補助記憶装置、１３１訓練データ、１３２ルールテーブル、１３３資産管理テーブル、１３４埋め込みベクトルテーブル、１３５出現頻度テーブル、５２１第２文字列分類モデル、５２２第２画像分類モデル、５３１第２訓練データ、５３５第２出現頻度テーブル

Claims

１以上のプロセッサと、
前記１以上のプロセッサが実行するプログラムを含むデータを格納する１以上の記憶装置と、を含む計算機システムであって、
前記１以上のプロセッサは、
対象データを取得し、
前記対象データから、１以上の分類モデルを使用して、複数ラベルそれぞれの確信度を決定し、
前記確信度のうち最も高い確信度が第１閾値を超える場合に、前記最も高い確信度のラベルを前記対象データに関連付けるラベルと決定し、
前記最も高い確信度が第１閾値以下である場合に、前記複数ラベルの内の一部のラベルを、前記対象データに関連付けるラベルの候補と決定する、計算機システム。
請求項１に記載の計算機システムであって、
前記対象データは対象文字列を含み、
前記１以上の記憶装置は、単語とラベルとを関連付けるルールテーブルを格納し、
前記１以上のプロセッサは、
前記確信度を決定する前に、前記対象文字列から１以上の単語を抽出し、
前記１以上の単語の一つの単語が前記ルールテーブルにおいてラベルと関連付けられている場合、前記ルールテーブルにおいて前記一つの単語に関連付けられている前記ラベルを、前記対象データに関連付けるラベルと決定する、計算機システム。
請求項１に記載の計算機システムであって、
前記一部のラベルの確信度は、前記複数ラベルにおける他のラベルの確信度より高い、計算機システム。
請求項１に記載の計算機システムであって、
前記対象データは対象文字列を含み、
前記１以上の記憶装置は、前記１以上の分類モデルの訓練データを格納し、
前記訓練データは、複数の文字列と前記複数の文字列に関連付けられているラベルとを含み、
前記１以上のプロセッサは、
前記最も高い確信度が前記第１閾値より小さい第２閾値未満の場合に、前記訓練データから前記対象文字列との類似度に基づき複数の文字列を選択し、前記訓練データにおいて前記選択された複数の文字列それぞれに対応するラベルを前記対象文字列に関連付けるラベルの候補と決定する、計算機システム。
請求項１に記載の計算機システムであって、
前記対象データは対象文字列及び対象画像を含み、
前記１以上の分類モデルは、１以上の文字列分類モデルと１以上の画像分類モデルとを含み、
前記１以上のプロセッサは、
前記対象文字列から、前記１以上の文字列分類モデルを使用して、前記複数ラベルそれぞれの文字列確信度を決定し、
前記対象画像から、前記１以上の画像分類モデルを使用して、前記複数ラベルそれぞれの画像確信度を決定し、
前記複数ラベルそれぞれの前記文字列確信度及び前記画像確信度に基づき、前記複数ラベルそれぞれの確信度を決定する、計算機システム。
請求項１に記載の計算機システムであって、
前記１以上の分類モデルは、同一の訓練データによって訓練され異なる構成を有する複数の分類モデルを含む、計算機システム。
請求項１に記載の計算機システムであって、
前記対象データは対象文字列を含み、
前記１以上の分類モデルは、１以上の文字列分類モデルを含み、
前記１以上の記憶装置は、前記１以上の文字列分類モデルの訓練データにおける前記複数ラベルの出現頻度の情報を格納し、
前記１以上のプロセッサは、
前記最も高い確信度の出現頻度に基づいて、前記最も高い確信度値及び前記予め設定されている閾値の少なくとも一方の調整を行い、
前記調整の後に、前記最も高い確信度及び前記予め設定されている閾値を比較することによって、前記調整前の前記最も高い確信度が前記第１閾値より大きいか判定する、計算機システム。
請求項１に記載の計算機システムであって、
前記対象データは対象文字列を含み、
前記１以上の分類モデルは、１以上の文字列分類モデルを含み、
前記１以上の記憶装置は、
前記１以上の文字分類モデルの第１訓練データにおける前記複数ラベルの出現頻度の情報と、
前記第１訓練データと異なる第２訓練データにおける前記複数ラベルの出現頻度の情報と、を格納し、
前記最も高い確信度のラベルの出願頻度が前記第２訓練データにおいて前記第１訓練データよりも高く、
前記１以上のプロセッサは、
前記対象データから、前記第２訓練データにより訓練された１以上の第２分類モデルを使用して、前記最も高い確信度のラベルの確信度を決定し、
前記１以上の第２分類モデルを使用して決定された確信度に基づいて、前記最も高い確信度値及び前記予め設定されている閾値の少なくとも一方の調整を行い、
前記調整の後に、前記最も高い確信度及び前記予め設定されている閾値を比較することによって、前記調整前の前記最も高い確信度が前記第１閾値より大きいか判定する、計算機システム。
請求項１に記載の計算機システムであって、
出力デバイスをさらに含み、
前記１以上のプロセッサは、前記最も高い確信度が第１閾値以下である場合に、前記対象データに関連付けるラベルの候補を前記出力デバイスに出力する、計算機システム。
計算機システムが対象データに関連付けるラベルを決定する方法であって、
前記計算機システムが、対象データを取得し、
前記計算機システムが、前記対象データから、１以上の分類モデルを使用して、複数ラベルそれぞれの確信度を決定し、
前記計算機システムが、前記確信度のうち最も高い確信度が第１閾値を超える場合に、前記最も高い確信度のラベルを前記対象データに関連付けるラベルと決定し、
前記計算機システムが、前記最も高い確信度が第１閾値以下である場合に、前記複数ラベルの内の一部のラベルを、前記対象データに関連付けるラベルの候補と決定する、ことを含む方法。