JP2017062612A

JP2017062612A - 規制検索装置、及び規制検索方法

Info

Publication number: JP2017062612A
Application number: JP2015187204A
Authority: JP
Inventors: 孝明熊澤; Takaaki Kumazawa
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2015-09-24
Filing date: 2015-09-24
Publication date: 2017-03-30

Abstract

【課題】ユーザーにとって未知の製品含有物質規制をユーザーが容易に発見できるようにする。【解決手段】規制検索装置は、製品含有物質規制に関するキーワードを用いて、文書集合から複数の文書を検索する検索部と、前記検索された各文書の類似度に基づいて、複数の文書分類を生成する規制分類部と、前記生成された文書分類ごとに、当該文書分類に関連付けられた前記文書から当該文書分類の規制名を抽出し、前記各文書分類の前記規制名を含む規制情報を生成する規制情報生成部とを有する。【選択図】図１

Description

本発明は、規制検索装置、及び規制検索方法に関する。

欧州のRoHS（Restriction of certain Hazardous Substances）指令を始めとした製品含有物質規制が、世界各国に拡大している。製品含有物質規制とは、製品に含まれる化学物質の種類や量などに基づいて、製品の出荷などを制限する規制である。製品の製造業者などの事業者は、このような規制に対応するため、製品に含まれる化学物質を把握しなければならない。

特許文献１には、「製品に使われる部品のリストが分かる部品データ、部品の供給元が分かる部品納入メーカデータ、部品に含まれる化学物質の内容が分かる部品有害物質データ、法律による規制内容や顧客が指定した安全基準等の内容が分かる法律等規制物質データの４種のデータを使って、製品内に含まれる化学物質の種類と量を計算・表示し、化学物質を規制している法律等を提示する。」と記載されている。

特開２００３−２５６５０４号公報

近年の市場のグローバル化は、製品の出荷先をより多くの国に拡大させている。このような状況では、例えば、新たな出荷先の国においてこれまで製品への含有を調査したことがない化学物質に対する規制が存在する、というリスクが高まっている。このような未知の規制物質を発見するためには、将来的に製品を出荷する可能性がある国の製品含有物質規制を網羅的に調査し、規制物質を事前に把握する必要がある。しかしながら、世界中の膨大な数の文書データの中から製品含有物質規制に関する文書データを簡単にかつ精度よく抽出するのは困難である。

特許文献１は、製造業者にとって未知の製品含有物質規制を調査することを考慮しておらず、上記のような課題を解決することはできない。

本発明の目的は、ユーザーにとって未知の製品含有物質規制をユーザーが容易に発見できるようにすることである。

本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。

上記の課題を解決する本発明の一態様に係る規制検索装置は、製品含有物質規制に関するキーワードを用いて、文書集合から複数の文書を検索する検索部と、前記検索された各文書の類似度に基づいて、複数の文書分類を生成し、前記生成された各文書分類に、対応する少なくとも１つ以上の前記文書を関連付ける規制分類部と、前記生成された文書分類ごとに、当該文書分類に関連付けられた前記文書から当該文書分類の規制名を抽出し、前記各文書分類の前記規制名を含む規制情報を生成する規制情報生成部とを有する。

本発明によれば、ユーザーは、未知の製品含有物質規制を容易に発見することができる。

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明の実施形態に係る規制検索装置の構成の一例を示すブロック図である。検索キーワード情報のデータ構造の一例を示す図である。規制文書のデータ構造の一例を示す図である。物質名情報のデータ構造の一例を示す図である。規制情報のデータ構造の一例を示す図である。規制検索装置のハードウェア構成の一例を示すブロック図である。規制検索装置の処理の一例を示すフローチャートである。検索を開始するための操作画面の一例を示す図である。タイトルから抽出された単語ベクトルの一例を説明する図である。タイトルの類似度評価に基づく文書の分類処理の一例を説明する図である。本文から抽出された単語ベクトルの一例を説明する図である。分類を作成する処理及び規制名を抽出する処理の一例を説明する図である。規制情報の出力画面の一例を示す図である。規制情報の詳細出力画面の一例を示す図である。本発明の実施形態の変形例に係る規制情報のデータ構造を示す図である。変形例に係る規制情報の出力画面を示す図である。

本発明の実施形態を説明する前に、製品含有物質規制について補足的に説明する。

製品に含まれる化学物質を把握するためには、購入品に含まれる化学物質をチェックしなければならない。このことは、購入品の製造業者が更にサプライチェーンの上流の製造業者に対して同様のチェックを行わせる必要があることを意味しており、サプライチェーン全体に渡って大きな作業負荷を発生させる。このため既存の製品含有物質調査では、主な出荷先の国で規制されている化学物質を中心に調査を進める。

近年の市場のグローバル化は、製品の出荷先をより多くの国に拡大させている。このような状況では、新たな出荷先の国においてこれまで製品への含有を調査したことがない化学物質が規制されている、というリスクが高まっている。例えば、新たな出荷先の国において新たな規制物質が発見された場合、製品の製造業者は当該規制物質が購入品に含まれているか否かを再調査し、含まれている場合は当該製品を設計変更する必要が生じる。このような再調査や設計変更が製品の出荷先の国が増えるごとに発生すると、サプライチェーン全体に大きな作業負荷が生じるとともに、製品の出荷遅延の原因になる。

近年では、製品含有物質規制の情報は、官公庁などが公開する規制の本文そのものや、業界団体や調査会社などがレポートした規制文書の形式で、インターネットで公開されるので、インターネットから検索できることが多い。しかしながら、製品含有物質規制の調査者にとって未知の規制については、規制文書を一意に特定するキーワードを設定できない。そのため、調査者は、予想される関連キーワードを用いてあいまいな検索をすることになる。その結果、検索結果には、同一規制に関する情報が複数含まれるなど、膨大な数の無用情報が含まれることになる。このような検索結果から、調査者が未知の規制を発見することは困難である。

以下、本発明の実施形態について、図面を参照しながら説明する。

図１は、本発明の実施形態に係る規制検索装置の構成の一例を示すブロック図である。規制検索装置１は、インターネットに接続され、インターネット上に存在する製品含有物質規制に関する規制文書データ（以下、単に「規制文書」という）を検索する。インターネットに加えあるいは替えて、あらゆる種類の文書データが蓄積された特定のネットワークや記憶装置を検索してもよい。規制検索装置１は、演算部１０と、記憶部２０と、表示部３０と、入力部４０と、通信部５０とを含む。

記憶部２０は、演算部１０が処理に使用する情報を格納する。具体的には、記憶部２０は、検索キーワードＤＢ２１と、規制文書ＤＢ２２と、物質名ＤＢ２３と、規制情報ＤＢ２４とを格納する。

検索キーワードＤＢ２１は、インターネットから規制文書を検索するための検索キーワードを生成するために用いられる検索キーワード情報を格納する。図２は、検索キーワード情報のデータ構造の一例を示す図である。検索キーワード情報は、分類コード２１ａと、要素２１ｂとを関連付けたレコードを含む。図２の「No.」は、便宜的に付けた各レコードの番号を示す。分類コード２１ａは、言語的な意味に基づく要素２１ｂの分類である。意味が同じ又は類似する要素２１ｂは、同じ分類コード２１ａが付与されている。要素２１ｂは、検索キーワードを構成する要素としてのキーワードである。要素２１ｂには、製品含有物質規制を検索するために関連すると考えられるキーワードが予め登録される。後述するように、検索キーワードは、異なる分類コードに含まれる複数の要素の組み合わせによって構成される。

規制文書ＤＢ２２は、インターネットから検索された少なくとも１つ以上の規制文書を格納する。インターネットで公開されている多くの規制文書は、少なくともタイトル部分と本文部分とを含む。このような規制文書には、例えば、HTML(HyperText Markup Language)やXML(eXtensible Markup Language)などの記述言語を用いた構造化文書のフォーマットが用いられる。図３は、規制文書のデータ構造の一例を示す図である。図３は、HTML形式の規制文書を概念的に示した図である。この規制文書からは、例えば、タイトル・タグ（<title>及び</title>）によって囲まれた部分をタイトル２２ａとして特定し、タイトル２２ａ以外の部分を本文２２ｂとして特定することができる。規制文書ＤＢ２２は、各規制文書のデータを、タイトル部分と本文部分とを区別して保存する。規制文書のフォーマットは、タイトル及び本文を特定可能であれば、PDF(Portable Document Format)などのその他のフォーマットであってもよい。

物質名ＤＢ２３は、規制文書から物質名を検索するために用いる物質名情報を格納する。図４は、物質名情報のデータ構造の一例を示す図である。物質名情報は、物質名２３ａと、ＣＡＳ番号２３ｂとを関連付けたレコードを含む。図４の「No.」は、便宜的に付けた各レコードの番号を示す。物質名２３ａは、既に知られている物質の名称である。物質の名称には、例えば、IUPAC(International Union of Pure and applied Chemistry)が定めた名称、研究機関などの機関が独自に定めた名称、その他の通称や略称などを用いることができる。図４では、１つの化学物質について１つの物質名が登録されているが、１つの化学物質について複数の物質名を登録してもよい。ＣＡＳ番号２３ｂは、アメリカ化学会（American Chemical Society）が定める化学物質のコードであり、化学物質を特定するコードとして広く使われている。

規制情報ＤＢ２４は、インターネットから検索された規制文書に基づいて生成された規制情報を格納する。図５は、規制情報のデータ構造の一例を示す図である。規制情報は、規制名２４ａと、参考文書２４ｂと、類似度２４ｃと、更新日２４ｄとを関連付けたレコードを含む。図５の「No.」は、便宜的に付けた各レコードの番号を示す。規制名２４ａは、参考文書２４ｂが示す規制文書が規定する製品含有物質規制の名称である。参考文書２４ｂは、例えばURL(Uniform Resource Locator)などの規制文書の格納場所やアドレスを示す情報である。類似度２４ｃは、後述する規制分類処理により算出される、参考文書２４ｂが示す規制文書と他の規制文書との類似度である。更新日２４ｄは、参考文書２４ｂが示す規制文書の更新日である。

表示部３０は、操作画面などのインターフェイス画面を表示する。入力部４０は、ユーザーの操作の入力を受け付ける。通信部５０は、インターネットに接続し、情報の送受信を行う。

演算部１０は、インターネット上に存在する文書集合から、製品含有物質規制に関する規制文書を検索する検索処理、検索した規制文書に基づいて規制情報を生成する生成処理などの処理を実行する。文書集合は、インターネット上に存在する閲覧可能な全ての文書データを含む意味である。具体的には、演算部１０は、検索部１１と、規制分類部１２と、規制情報生成部１５と、規制情報出力部１６とを含む。規制分類部１２は、タイトル分類部１３と、本文分類部１４とを含む。

検索部１１は、検索キーワードＤＢ２１に格納されている検索キーワード情報に基づいて検索キーワードを１つ以上生成する。検索部１１は、生成した検索キーワードにヒットする文書を、通信部５０を介してインターネットで検索し、検索した文書を規制文書として規制文書ＤＢ２２に格納する。検索部１１の処理は、後に詳述する。

規制分類部１２は、タイトル分類部１３により決定された各規制文書の分類と、本文分類部１４により決定された各規制文書の分類とに基づいて、これらの２つの分類の両方が一致する規制文書の集合を特定し、各集合に対して文書分類（「規制分類」と呼んでもよい）を生成する。また、規制分類部１２は、生成した各文書分類に、対応する規制文書を関連付けることにより、規制文書ＤＢ２２に格納されている各規制文書を分類する。規制分類部１２の処理は、後に詳述する。

タイトル分類部１３は、規制文書ＤＢ２２に格納されている各規制文書のタイトルに基づいて、各規制文書のタイトルに含まれる単語の類似性を算出することにより、各規制文書を分類する。タイトル分類部１３の処理は、後に詳述する。

本文分類部１４は、物質名ＤＢ２３に格納されている物質名情報を用いて、規制文書ＤＢ２２に格納されている各規制文書の本文から物質名を抽出する。また、本文分類部１４は、各規制文書の本文に含まれる物質名の類似性を算出することにより、各規制文書を分類する。本文分類部１４の処理は、後に詳述する。

規制情報生成部１５は、規制分類部１２により生成された各文書分類に関連付けられた規制文書から規制名を抽出し、各文書分類に規制名を付与する。また、規制情報生成部１５は、各文書分類の規制名を含む規制情報を生成し、規制情報ＤＢ２４に格納する。規制情報生成部１５の処理は、後に詳述する。

規制情報出力部１６は、規制情報ＤＢ２４に格納されている規制情報に基づいて、規制名の一覧を含む画面を生成し、表示部３０に出力する。また、規制情報出力部１６は、入力部４０を介してユーザーの操作を受け付けて、規制情報に基づいて、規制に関する詳細を含む画面を生成し表示部３０に出力する。例えば、規制情報出力部１６は、通信部５０を介して通信可能な外部装置に対して画面を出力したり、当該外部装置からユーザーの操作を受け付けたりしてもよい。規制情報出力部１６の処理は、後に詳述する。

図６は、規制検索装置のハードウェア構成の一例を示すブロックである。規制検索装置１は、例えば、パーソナルコンピューターであるが、これに限らず、サーバーコンピューター、スマートフォン、タブレットコンピューター等の装置であってもよい。また、規制検索装置１は、複数のコンピューターにより構成されてもよい。

規制検索装置１は、例えば、演算装置１０１と、主記憶装置１０２と、外部記憶装置１０３と、出力装置１０４と、入力装置１０５と、通信装置１０６とを含む。

演算装置１０１は、例えば、CPU(Central Processing Unit)などの装置である。主記憶装置１０２は、例えば、RAM(Random Access Memory)などのメモリーである。外部記憶装置１０３は、例えば、ハードディスクやSSD(Solid State Drive)、あるいはフラッシュＲＯＭなどの不揮発性記憶装置である。

出力装置１０４は、ディスプレイ、プリンター、スピーカーなどを含む、出力情報を出力する装置である。入力装置１０５は、キーボードやマウスなどのポインティングデバイス、タッチパネル、マイクロフォンなどを含む、入力情報を受け付ける装置である。通信装置１０６は、ネットワークケーブルを介して有線通信を行う通信装置、アンテナを介して無線通信を行う通信装置を含む、情報を送受信する装置である。

演算部１０は、例えば、演算装置１０１に処理を行わせるプログラムによって実現することができる。このプログラムは、例えば、主記憶装置１０２又は外部記憶装置１０３内に記憶され、実行にあたって主記憶装置１０２上にロードされ、演算装置１０１によって実行される。記憶部２０は、例えば、主記憶装置１０２及び外部記憶装置１０３の少なくとも一方によって実現される。記憶部２０は、例えば、通信部５０を介して接続されるネットワーク上のストレージにより実現されてもよい。

表示部３０は、例えば、出力装置１０４によって実現される。入力部４０は、例えば、入力装置１０５によって実現される。通信部５０は、例えば、通信装置１０６によって実現される。

図７は、規制検索装置の処理の一例を示すフローチャートである。検索キーワードＤＢ２１には、検索キーワード情報が予め格納されている。物質名ＤＢ２３には、物質名情報が予め格納されている。

演算部１０は、例えば、入力部４０を介して規制文書の検索処理を開始する操作をユーザーから受け付けて、図７に示すフローチャートの処理を開始する。例えば、検索部１１は、図８（検索を開始するための操作画面の一例を示す図）に示すような操作画面３００を表示部３０に出力する。操作画面３００は、検索範囲のドメイン名を入力する入力欄３１０と、検索開始の指示を受け付ける検索開始ボタン３２０とを含んでいる。例えば、入力欄３１０の「.eu」は、欧州連合の「eu」ドメイン配下の全てのＵＲＬが示すサイトが検索範囲であることを示す。入力欄３１０には、トップドメインに限らず下位階層のドメインを入力することができる。入力欄３１０が空欄の場合は、インターネット上の全てのＵＲＬが示すサイトが検索範囲であることを示す。検索部１１は、入力部４０を介して検索開始ボタン３２０の操作を受け付けた場合に、ステップＳ１０の処理を実行する。なお、操作画面３００は、入力欄３１０を含んでいなくてもよい。

まず、検索部１１は、検索キーワードを取得する（ステップＳ１０）。具体的には、検索部１１は、検索キーワードＤＢ２１から検索キーワード情報を読み出し、異なる分類コード２１ａを持つレコードからそれぞれ１つの要素２１ｂを選択して組み合わせることにより検索キーワードを作成する。検索部１１は、異なる分類コードを持つ要素の全ての組み合わせについて、検索キーワードを作成する。図２のデータの例において、仮に要素２１ｂが５つの場合、分類コード「１」から選択される「substance」又は「chemical」の何れか１要素と、分類コード「２」から選択される「restriction」、「registration」、又は「authorization」の何れか１要素との組み合わせが、１つの検索キーワードである。この場合、検索キーワードは、全部で６個取得される。

それから、検索部１１は、インターネットで文書を検索する（ステップＳ２０）。具体的には、検索部１１は、ステップＳ１０で取得した検索キーワードから１つを選択して、選択した検索キーワードでインターネットを検索し、ヒットした文書のデータを規制文書ＤＢ２２に格納する。操作画面３００（図８）の入力欄３１０にドメインが設定されている場合は、検索部１１は、当該ドメインを検索範囲として検索を実行する。検索部１１は、ヒットした文書のデータとともに、当該文書のＵＲＬも規制文書ＤＢ２２に格納する。キーワードを用いた検索技術は、既存の技術を利用できるため、説明を省略する。

それから、検索部１１は、ステップＳ１０で取得した全ての検索キーワードを選択したか否かを判定する（ステップＳ３０）。全ての検索キーワードを選択していないと判定した場合（ステップＳ３０：Ｎ）、検索部１１は、再びステップＳ２０の処理を実行する。

全ての検索キーワードを選択したと判定した場合（ステップＳ３０：Ｙ）、検索部１１は、規制文書ＤＢ２２に格納されている各文書について、タイトル部分と本文部分とを分割して保存する（ステップＳ４０）。例えば、検索部１１は、タイトル・タグ（<title>及び</title>）によって囲まれた部分をタイトルとして特定し、タイトル以外の部分を本文として特定すればよい。図３の規制文書の例では、タイトルとして「Restriction of the use of certain hazardous substances」の文字列が特定され、それ以外の文字列が本文として特定される。

それから、タイトル分類部１３は、タイトルに基づいて規制文書を分類する（ステップＳ５０）。具体的には、タイトル分類部１３は、規制文書ＤＢ２２から各規制文書のタイトルを読み出し、タイトル間の文字列（タイトルに含まれる単語）の類似性に基づいて規制文書を分類する。この処理について、具体例を用いて以下に詳細に説明する。

本実施形態では、文字列の類似性を評価する手法の一例として、ベクトル空間モデルを説明する。ベクトル空間モデルとは、文字列を単語に分解して単語の種類を次元とするベクトルを作成し、ベクトル演算を利用して文字列を分析する手法である。

図９は、タイトルから抽出された単語ベクトルの一例を説明する図である。縦軸１３ａは、規制文書ＤＢ２２に格納されている各規制文書のタイトルに含まれる単語のリストである。横軸１３ｂは、規制文書ＤＢ２２に格納されている各規制文書のリストである。縦軸１３ａの単語と横軸１３ｂの規制文書との交点は、当該規制文書に使われている当該単語の数を示している。例えば、「文書２」は、「restriction」、「hazardous」、「substance」という単語をそれぞれ１つずつ使っていることが分かる。

上述のように作成された図９の表において、列方向のデータは、単語の種類を次元としたベクトルとみなすことができる。このベクトルは、各規制文書のタイトルに使用される単語の種類と頻度（０又は１以上）を示している。この性質を利用して文字列に使われる単語の類似性を評価する手法としてコサイン類似度がある。コサイン類似度とは、２つのベクトルのなす角度θを用いて、２つの文字列の類似度を評価する手法である。２つの文字列の類似度は、例えば、これらの文字列から作成したベクトルa、bを用いて下記の式（１）で評価することができる。

cosθ = (a, b) / |a||b| ・・・（１）
(a, b)は、ベクトルの内積を示す。|a|、|b|は、ベクトルの大きさを示す。２つのベクトルは、２つのベクトルが成す角度θが小さいほど類似していると考えられる。従って、式（１）の右辺の値が大きいほど、２つのベクトルが類似していると判断できる。

規制文書の分類は、上記ようにして算出されたコサイン類似度を指標としたクラスタリング処理により行う。クラスタリング手法の一例として、階層的クラスター分析を用いる場合について説明する。

図１０は、タイトルの類似度評価に基づく文書の分類処理の一例を説明する図である。縦軸は、コサイン類似度の逆数である。横軸は、規制文書のリストである。階層的クラスター分析では、まず、全ての文書の組み合わせについてコサイン類似度を評価し、類似度が最も高い（式（１）の逆数が最も小さい）文書の組み合わせを特定し、部分集合を作成する。次に、部分集合を１つの文書とみなして、再度文書間の類似度評価を行い、同様の処理を行う。以上の処理を全ての文書が１つの集合となるまで繰り返し行うと、図１０に示すように部分集合を作成したときの類似度を縦軸に表した階層構造を作成することができる。図１０の例では、「文書２」と「文書３」が最も類似しており、最初に部分集合が作成されている。さらに、「文書２」と「文書３」の部分集合と、「文書１」とにより、上位の部分集合が作成されている。規制文書の分類は、このように作成した文書の階層構造と、予め定めた閾値とを比較し、当該閾値より類似度が高い部分集合を同一規制に関する文書の集合（文書分類）であると判断することにより作成する。図１０の例では、「文書１」、「文書２」、及び「文書３」が１つの分類に属し、「文書４」が他の分類に属する。

上述のようにして、タイトル分類部１３は、規制文書ＤＢ２２に格納されている全ての規制文書のタイトルに含まれる単語に基づいて、類似度の算出及びクラスタリングを繰り返すことにより、規制文書を分類する。

それから、本文分類部１４は、本文に含まれる物質名に基づいて規制文書を分類する（ステップＳ６０）。具体的には、本文分類部１４は、規制文書ＤＢ２２から各規制文書の本文を読み出し、本文に含まれる物質名を抽出し、各規制文書の本文間の文字列（本文に含まれる物質名）の類似性に基づいて規制文書を分類する。この処理について、具体例を用いて以下に詳細に説明する。

本実施形態では、文字列の類似性を評価する手法として、タイトルの場合（ステップＳ５０）と同様にベクトル空間モデルを用いる。

図１１は、本文から抽出された単語ベクトルの一例を説明する図である。縦軸１４ａは、規制文書ＤＢ２２に格納されている各規制文書の本文から抽出された物質名のリストである。横軸１４ｂは、規制文書ＤＢ２２に格納されている各規制文書のリストである。縦軸１４ａの物質名と横軸１４ｂの規制文書との交点は、当該規制文書に当該物質名が使われているか否かを示している。縦軸１４ａには、同一の物質については１つの物質名が設定される。物質名情報において１つの化学物質に対して複数の物質名が定義されている場合、縦軸１４ａには、これらの複数の物質名を代表する１つの物質名が設定される。図１１の例では，「１」は物質名が本文中に存在することを示し、「０」は物質名が本文中に存在しないことを示している。例えば、「文書２」は、「Lead」、「Mercury」、「Cadmium」、及び「Hexavalent chromium」を含まず、「Polybrominated biphenyls」を含むことが分かる。

本文分類部１４は、物質名ＤＢ２３に格納されている物質名情報から各物質名２３ａ及び各ＣＡＳ番号２３ｂを読み出し、読み出した各物質名２３ａ及び各ＣＡＳ番号２３ｂに一致する物質名及びＣＡＳ番号を、各規制文書から抽出する。本文分類部１４は、抽出した物質名、あるいは抽出したＣＡＳ番号に対応する物質名に、「１」を設定する。物質名情報において１つの化学物質に対して複数の物質名が定義されている場合に、これらの複数の物質名のうち１つを抽出すると、本文分類部１４は、これらの複数の物質名を代表する物質名に、「１」を設定する。このようにすれば、複数の規制文書間において意図されている化学物質が同一であるにも関わらず、図１１の表において異なる物質名として記録されることを回避する。

上述のように作成された図１１の表において、列方向のデータは、物質名の種類を次元とするベクトルとみなすことができる。このベクトルは、各規制文書の本文に使用される物質名の種類と頻度（０又は１）を示している。従って、物質名の類似度評価にコサイン類似度を用い、階層的クラスタリング手法により本文を分類することで、規制文書を分類することができる。

上述のようにして、本文分類部１４は、規制文書ＤＢ２２に格納されている全ての規制文書の本文に含まれる物質名に基づいて、類似度の算出及びクラスタリングを繰り返すことにより、規制文書を分類する。

それから、規制分類部１２は、タイトルの分類と本文の分類とに基づいて、文書分類を生成する（ステップＳ７０）。規制分類部１２は、ステップＳ５０でタイトル分類部１３により決定された各規制文書のタイトル分類と、ステップＳ６０で本文分類部１４により決定された各規制文書の本文分類とに基づいて、これらの２つの分類の両方が一致する規制文書の集合を特定し、各集合に対して文書分類を生成する。規制分類部１２は、生成した各文書分類に、対応する規制文書を関連付ける。

図１２は、分類を作成する処理及び規制名を抽出する処理の一例を説明する図である。縦軸１２ａは、文書のリストである。横軸は、タイトル分類１２ｂ、本文分類１２ｃ、文書分類１２ｄ、及び規制名１２ｅである。図１２の例では、「文書１〜４」が示されている。タイトル分類１２ｂでは、「文書１〜３」は「Ａ１」に分類され、「文書４」は「Ａ２」に分類されている。本文分類１２ｃでは、「文書２」及び「文書３」は「Ｂ１」に分類され、「文書１」及び「文書４」は「Ｂ２」に分類されている。タイトル分類１２ｂ及び本文分類１２ｃに基づいて、文書分類１２ｄが生成される。図１２の例では、「文書２」と「文書３」が、タイトル分類「Ａ１」と本文分類「Ｂ１」の両方で一致する。従って、文書分類１２ｄとして「Ｃ１」が生成され、これらの文書に付与される。「文書１」は、タイトル分類と本文分類の両方が一致する他の文書がないため、文書分類１２ｄとして個別の「Ｃ２」が生成され、付与される。「文書４」は、タイトル分類と本文分類の両方が一致する他の文書がないため、文書分類１２ｄとして個別の「Ｃ３」が生成され、付与される。

規制文書は、タイトルに規制名に関する情報を含み、本文に規制物質に関する情報を含む傾向がある。従って、タイトルの分類と本文の分類の両方が等しい文書は、同一の規制に関する文書であると考えられる。この性質を利用して文書分類を生成することで、精度よく同一規制を特定することができるとともに、各規制文書を規制ごとにまとめることができる。

最後に、規制情報生成部１５は、各文書分類に規制名を付与する（ステップＳ８０）。具体的には、規制情報生成部１５は、ステップＳ７０で生成された各文書分類について、当該文書分類に関連付けられた各規制文書から１つのタイトルを選択し、当該文書分類の規制名として付与する。図１２の例では、文書分類「Ｃ１」の規制名１２ｅとして、「文書２」のタイトル「Ａ１−２」が選択されている。文書分類「Ｃ２」の規制名１２ｅとして、「文書１」のタイトル「Ａ１−１」が選択されている。文書分類「Ｃ３」の規制名１２ｅとして、「文書４」のタイトル「Ａ２−１」が選択されている。

規制情報生成部１５は、上述のように生成した各文書分類の規制名を含む規制情報を生成し、規制情報ＤＢ２４に格納する。規制情報生成部１５は、例えば、図５に示すように、規制名２４ａと、参考文書２４ｂと、類似度２４ｃと、更新日２４ｄとを関連付けた規制情報を生成する。参考文書２４ｂには、ステップＳ７０で各文書分類に関連付けられた規制文書のＵＲＬなどが設定される。類似度２４ｃには、ステップＳ６０のクラスタリング処理において、参考文書２４ｂが示す文書が、他の文書（部分集合を含む）に組み合わされたときの類似度が設定される。ステップＳ６０のクラスタリング処理が開始された後、最初に組み合わされた文書の類似度２４ｃには同じ値が設定される。更新日２４ｄには、参考文書２４ｂが示す文書の更新日が設定される。更新日は、例えば、更新日に関するキーワードあるいは日付を規制文書の中から検索して、抽出すればよい。

以上のようにして、図７に示すフローチャートの処理が終了する。

規制情報出力部１６は、上述のように生成された規制情報に基づいて、規制名の一覧を含む画面を生成し、表示部３０に出力する。

図１３は、規制情報の出力画面の一例を示す図である。出力画面４００は、規制名４１０と、更新日４２０と、開くボタン４３０とを対応付けたレコードを含む。規制情報出力部１６は、規制情報ＤＢ２４から規制情報を読み出し、同じ規制名２４ａについては１つの規制名４１０のレコードにまとめる。また、規制情報出力部１６は、同じ規制名２４ａに関連付けられた更新日２４ｄのうち、最新の更新日を更新日４２０として出力する。開くボタン４３０は、各レコードにまとめられた１つ以上の規制文書の詳細を表示するためのボタンである。

出力画面４００の規制名４１０により、ユーザーは、どのような物質規制が存在するかを簡単に確認することができる。また、更新日４２０により、ユーザーは、日付に基づいて調査すべき物質規制を絞る（例えば、古い物質規制は調査対象外にする）など、関心のある物質規制を簡単に選ぶことができる。なお、規制情報出力部１６は、同じ規制名２４ａに関連付けられた更新日２４ｄのうち、最も古い更新日を更新日４２０として出力してもよい。

規制情報出力部１６は、例えば、入力部４０を介して、いずれかのレコードの開くボタン４３０の操作を受け付けた場合に、操作されたレコードにまとめられた、同じ規制名を有する１つ以上の規制文書の詳細を含む画面を生成し、表示部３０に出力する。

図１４は、規制情報の詳細出力画面の一例を示す図である。図１４は、図１３の出力画面４００で、規制名「RoHS」に対応する開くボタン４３０が選択された場合を示している。詳細出力画面５００は、規制名５１０と、参考文書５２０と、類似度５３０と、更新日５４０とを対応付けたレコードを含む。規制情報出力部１６は、出力画面４００で操作されたレコードにまとめられた、同じ規制名を有する１つ以上のレコードを、規制情報ＤＢ２４の規制情報から読み出し、出力する。規制名５１０、参考文書５２０、類似度５３０、及び更新日５４０は、規制名２４ａ、参考文書２４ｂ、類似度２４ｃ、及び更新日２４ｄに対応する。規制情報出力部１６は、読み出したレコードを、類似度５３０が大きい順に並べて出力する。

詳細出力画面５００により、ユーザーは、関心のある物質規制について、関連する規制文書を簡単に確認することができる。また、ユーザーは、類似度が大きい規制文書を簡単に見つけて確認することができる。類似度が大きい規制文書は、同じ文書分類に含まれる文書の特徴を最もよく現していると考えられる。

以上、本発明の実施形態について説明した。本実施形態によれば、ユーザーにとって未知の製品含有物質規制をユーザーが容易に発見できる。本実施形態は、例えば、文書集合から検索した複数の文書を、文字列の類似度に基づいて分類し、各分類に規制名を付与する。本実施形態は、同一規制に関する複数の文書が検索される場合でも、これらの文書が属する１つの分類を１つの規制として特定する。これにより、ユーザーは、規制名の一覧を参考に、新たな製品物質規制を簡単に発見できる。また、ユーザーは、公開されている製品物質規制を簡単に網羅的に把握することが可能となる。

本発明は、上述の実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。以下、上述の実施形態と同じ構成については説明を省略し、上述の実施形態と異なる点を中心に説明する。

図１５は、本発明の実施形態の変形例に係る規制情報のデータ構造を示す図である。規制情報は、規制名２４ａ、参考文書２４ｂ、類似度２４ｃ、及び更新日２４ｄに加え、国コード２４ｅを含む。国コード２４ｅは、参考文書２４ｂが示す規制文書が規定する製品含有物質規制が適用される国の略称、又は識別コードなどである。

検索部１１は、図７のステップＳ４０の処理の後、規制文書ＤＢ２２に格納されている各文書のタイトル又は本文の少なくとも一方から、国コードを抽出する。例えば、国名と国コードを対応付けた一覧表を記憶部２０に予め格納する。検索部１１は、当該一覧表の国名を用いて、各文書のタイトル又は本文から国名を検索する。また、検索部１１は、当該一覧表を用いて、検索した国名を国コードに変換する。検索部１１は、規制文書ＤＢ２２に格納されている各規制文書に、抽出した国コードを関連付けて保存する。検索部１１は、各規制文書から国名を使わずに直接国コードを抽出してもよい。

ステップＳ５０〜Ｓ７０は、上述の実施形態と同じである。ステップＳ８０において、規制情報生成部１５は、規制情報を生成する際に、各レコードについて、上述のように検索部１１により抽出された規制文書の国コードを取得し、国コード２４ｅとして関連付ける。このようにして、図１５に示すような規制情報が生成される。

国コードの抽出は、検索部１１が実行するのではなく、規制情報生成部１５が実行してもよい。例えば、ステップＳ８０において、規制情報生成部１５は、規制情報を生成する際に、各レコードについて、規制文書の国コードを抽出し、国コード２４ｅとして関連付ければよい。

図１６は、変形例に係る規制情報の出力画面を示す図である。出力画面４００は、規制名４１０、更新日４２０、及び開くボタン４３０に加え、国コード４４０を含む。規制情報出力部１６は、規制情報ＤＢ２４から規制情報を読み出し、国コード２４ｅ及び規制名２４ａの両方が同じレコードについては、１つの国コード４４０及び規制名４１０のレコードにまとめる。また、規制情報出力部１６は、同じ国コード２４ｅ及び規制名２４ａに関連付けられた更新日２４ｄのうち、最新の更新日を更新日４２０として出力する。

このような出力画面４００により、ユーザーは、国別に製品含有物質規制を把握することができる。また、同一名称の規制が複数の国にある場合でも、ユーザーは、国別に規制を把握することができる。

規制情報出力部１６は、例えば、入力部４０を介して、いずれかのレコードの開くボタン４３０の操作を受け付けた場合に、操作されたレコードにまとめられた、同じ国コード及び規制名を有する１つ以上レコードを、規制情報ＤＢ２４の規制情報から読み出し、詳細出力画面５００に出力する。規制情報出力部１６は、読み出したレコードを、類似度５３０が大きい順に並べて出力する。

このような詳細出力画面５００により、ユーザーは、関心のある国の規制名について、関連する規制文書を簡単に確認することができる。ユーザーは、例えば、製品の出荷国別に規制文書を簡単に確認することができる。

上記の変形例では、検索部１１又は規制情報生成部１５は、規制文書から国コードを抽出するが、規制文書から国名を抽出し、これを規制情報ＤＢ２４の規制情報に格納するようにしてもよい。この場合、規制情報出力部１６は、国コードに替えてあるいは加えて国名を出力すればよい。

上述の実施形態では、規制情報の類似度２４ｃには、本文類似度が設定されるが、タイトル類似度が設定されるようにしてもよい。また、規制情報の類似度２４ｃには、本文類似度とタイトル類似度の両方を設定するようにしてもよい。また、詳細出力画面５００の類似度５３０には、本文類似度とタイトル類似度の両方が表示されてもよい。この場合、各レコードは、本文類似度が大きい順、あるいはタイトル類似度が大きい順のいずれか選択された方法で、並べて出力すればよい。

上述の実施形態では、文書の分類処理に、コサイン類似度及び階層的クラスタリングを用いているが、規制文書を上述のようにタイトル分類及び本文分類に分類できれば、これらの手法に限定されない。

図１で示した規制検索装置１の構成は、規制検索装置１の構成を理解容易にするために、主な処理内容に応じて分類したものである。構成要素の分類の仕方や名称によって、本願発明が制限されることはない。規制検索装置１の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、１つの構成要素がさらに多くの処理を実行するように分類することもできる。また、各構成要素の処理は、１つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。また、各構成要素の処理又は機能の分担は、本発明の目的及び効果を達成できるのであれば、上述したものに限られない。

図７で示したフローチャートの処理単位は、規制検索装置１の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理単位の分割の仕方や名称によって、本願発明が制限されることはない。規制検索装置１の処理は、処理内容に応じて、さらに多くの処理単位に分割することもできる。また、１つの処理単位がさらに多くの処理を含むように分割することもできる。さらに、本発明の目的及び効果を達成できるのであれば、上記のフローチャートの処理順序も、図示した例に限られるものではない。例えば、ステップＳ５０とステップＳ６０の順序は逆であってもよい。

本発明は、上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した各実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、本発明が、必ずしも説明した全ての構成要素を備えるものに限定されるものではない。また、ある実施形態の構成の一部を、他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に、他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現されてもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリーや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１…規制検索装置、１０…演算部、１１…検索部、１２…規制分類部、１２ａ…縦軸、１２ｂ…タイトル分類、１２ｃ…本文分類、１２ｄ…文書分類、１２ｅ…規制名、１３…タイトル分類部、１３ａ…縦軸、１３ｂ…横軸、１４…本文分類部、１４ａ…縦軸、１４ｂ…横軸、１５…規制情報生成部、１６…規制情報出力部、２０…記憶部、２１…検索キーワードＤＢ、２１ａ…分類コード、２１ｂ…要素、２２…規制文書ＤＢ、２２ａ…タイトル、２２ｂ…本文、２３…物質名ＤＢ、２３ａ…物質名、２３ｂ…ＣＡＳ番号、２４…規制情報ＤＢ、２４ａ…規制名、２４ｂ…参考文書、２４ｃ…類似度、２４ｄ…更新日、２４ｅ…国コード、３０…表示部、４０…入力部、５０…通信部、１０１…演算装置、１０２…主記憶装置、１０３…外部記憶装置、１０４…出力装置、１０５…入力装置、１０６…通信装置、３００…操作画面、３１０…入力欄、３２０…検索開始ボタン、４００…出力画面、４１０…規制名、４２０…更新日、４３０…開くボタン、４４０…国コード、５００…詳細出力画面、５１０…規制名、５２０…参考文書、５３０…類似度、５４０…更新日

Claims

製品含有物質規制に関するキーワードを用いて、文書集合から複数の文書を検索する検索部と、
前記検索された各文書の類似度に基づいて、複数の文書分類を生成し、前記生成された各文書分類に、対応する少なくとも１つ以上の前記文書を関連付ける規制分類部と、
前記生成された文書分類ごとに、当該文書分類に関連付けられた前記文書から当該文書分類の規制名を抽出し、前記各文書分類の前記規制名を含む規制情報を生成する規制情報生成部と
を有する規制検索装置。
請求項１に記載の規制検索装置であって、
前記検索された各文書の第一の部分の第一の類似度に基づいて、前記各文書を分類する第一の分類部と、
前記検索された各文書の第二の部分の第二の類似度に基づいて、前記各文書を分類する第二の分類部と
を有し、
前記規制分類部は、前記第一の分類部により決定された第一の分類と、前記第二の分類部により決定された第二の分類とに基づいて、前記複数の文書分類を生成する
規制検索装置。
請求項２に記載の規制検索装置であって、
前記規制分類部は、前記第一の分類と前記第二の分類の両方が一致する前記文書の集合に対して、一の前記文書分類を生成する
規制検索装置。
請求項２に記載の規制検索装置であって、
前記第一の部分は、前記各文書のタイトルであり、
前記第一の分類部は、前記各文書の前記タイトルに含まれる単語の種類に基づいて、前記第一の類似度を算出し、
前記第二の部分は、前記各文書の本文であり、
前記第二の分類部は、前記各文書の前記本文に含まれる単語の種類に基づいて、前記第二の類似度を算出する
規制検索装置。
請求項４に記載の規制検索装置であって、
物質の名称又はコードを含む物質名情報を記憶する記憶部
を有し、
前記第二の分類部は、前記物質名情報を用いて前記各文書の本文から当該本文に含まれる物質の名称を抽出し、前記抽出された物質の名称に基づいて、前記第二の類似度を算出する
規制検索装置。
請求項１に記載の規制検索装置であって、
規制情報出力部を有し、
前記規制情報生成部は、前記規制情報において前記各規制名に対応する少なくとも１つ以上の前記文書を示す情報を関連付け、
前記規制情報出力部は、
前記規制情報に基づいて、前記規制名の一覧を出力し、
前記一覧の中から前記規制名を選択する操作を受け付けて、前記規制情報に基づいて、前記選択された規制名に関連付けられた少なくとも１つ以上の前記文書に関する情報を出力する
規制検索装置。
請求項６に記載の規制検索装置であって、
前記規制情報生成部は、前記規制情報において前記各文書に対応する前記類似度を関連付け、
前記規制情報出力部は、前記規制情報に基づいて、前記選択された規制名に関連付けられた少なくとも１つ以上の前記文書に関する情報と当該文書に関連付けられた前記類似度とを出力する
規制検索装置。
請求項６に記載の規制検索装置であって、
前記規制情報生成部は、前記各文書から当該文書の更新日を抽出し、前記規制情報において前記各文書に対応する前記更新日を関連付け、
前記規制情報出力部は、
前記規制情報に基づいて、前記規制名と、前記規制名に関連付けられた最も新しい又は最も古い前記更新日とを含む前記一覧を出力する
規制検索装置。
請求項８に記載の規制検索装置であって、
前記規制情報出力部は、前記規制情報に基づいて、前記選択された規制名に関連付けられた少なくとも１つ以上の前記文書に関する情報と当該文書に関連付けられた前記更新日とを出力する
規制検索装置。
請求項１に記載の規制検索装置であって、
規制情報出力部を有し、
前記規制情報生成部は、前記各文書から国名又は国コードを抽出し、前記規制情報において前記各規制名に対応する前記文書を示す情報と当該文書の前記国名又は前記国コードを関連付け、
前記規制情報出力部は、
前記規制情報に基づいて、前記規制名と前記国名又は前記国コードとの組み合わせ別に、前記規制名と前記国名又は前記国コードとを含む前記一覧を出力する
規制検索装置。
請求項１０に記載の規制検索装置であって、
前記規制情報出力部は、前記一覧の中から前記組み合わせを選択する操作を受け付けて、前記規制情報に基づいて、前記選択された組み合わせに関連付けられた少なくとも１つ以上の前記文書に関する情報を出力する
規制検索装置。
製品含有物質規制に関するキーワードを用いて、文書集合から複数の文書を検索するステップと、
前記検索された各文書の類似度に基づいて、複数の文書分類を生成し、前記生成された各文書分類に、対応する少なくとも１つ以上の前記文書を関連付けるステップと、
前記生成された文書分類ごとに、当該文書分類に関連付けられた前記文書から当該文書分類の規制名を抽出し、前記各文書分類の前記規制名を含む規制情報を生成するステップと
をコンピューターの演算部に実行させる規制検索方法。