JP2017062612A - 規制検索装置、及び規制検索方法 - Google Patents

規制検索装置、及び規制検索方法 Download PDF

Info

Publication number
JP2017062612A
JP2017062612A JP2015187204A JP2015187204A JP2017062612A JP 2017062612 A JP2017062612 A JP 2017062612A JP 2015187204 A JP2015187204 A JP 2015187204A JP 2015187204 A JP2015187204 A JP 2015187204A JP 2017062612 A JP2017062612 A JP 2017062612A
Authority
JP
Japan
Prior art keywords
document
restriction
name
regulation
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015187204A
Other languages
English (en)
Inventor
孝明 熊澤
Takaaki Kumazawa
孝明 熊澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2015187204A priority Critical patent/JP2017062612A/ja
Publication of JP2017062612A publication Critical patent/JP2017062612A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザーにとって未知の製品含有物質規制をユーザーが容易に発見できるようにする。【解決手段】規制検索装置は、製品含有物質規制に関するキーワードを用いて、文書集合から複数の文書を検索する検索部と、前記検索された各文書の類似度に基づいて、複数の文書分類を生成する規制分類部と、前記生成された文書分類ごとに、当該文書分類に関連付けられた前記文書から当該文書分類の規制名を抽出し、前記各文書分類の前記規制名を含む規制情報を生成する規制情報生成部とを有する。【選択図】図1

Description

本発明は、規制検索装置、及び規制検索方法に関する。
欧州のRoHS(Restriction of certain Hazardous Substances)指令を始めとした製品含有物質規制が、世界各国に拡大している。製品含有物質規制とは、製品に含まれる化学物質の種類や量などに基づいて、製品の出荷などを制限する規制である。製品の製造業者などの事業者は、このような規制に対応するため、製品に含まれる化学物質を把握しなければならない。
特許文献1には、「製品に使われる部品のリストが分かる部品データ、部品の供給元が分かる部品納入メーカデータ、部品に含まれる化学物質の内容が分かる部品有害物質データ、法律による規制内容や顧客が指定した安全基準等の内容が分かる法律等規制物質データの4種のデータを使って、製品内に含まれる化学物質の種類と量を計算・表示し、化学物質を規制している法律等を提示する。」と記載されている。
特開2003−256504号公報
近年の市場のグローバル化は、製品の出荷先をより多くの国に拡大させている。このような状況では、例えば、新たな出荷先の国においてこれまで製品への含有を調査したことがない化学物質に対する規制が存在する、というリスクが高まっている。このような未知の規制物質を発見するためには、将来的に製品を出荷する可能性がある国の製品含有物質規制を網羅的に調査し、規制物質を事前に把握する必要がある。しかしながら、世界中の膨大な数の文書データの中から製品含有物質規制に関する文書データを簡単にかつ精度よく抽出するのは困難である。
特許文献1は、製造業者にとって未知の製品含有物質規制を調査することを考慮しておらず、上記のような課題を解決することはできない。
本発明の目的は、ユーザーにとって未知の製品含有物質規制をユーザーが容易に発見できるようにすることである。
本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。
上記の課題を解決する本発明の一態様に係る規制検索装置は、製品含有物質規制に関するキーワードを用いて、文書集合から複数の文書を検索する検索部と、前記検索された各文書の類似度に基づいて、複数の文書分類を生成し、前記生成された各文書分類に、対応する少なくとも1つ以上の前記文書を関連付ける規制分類部と、前記生成された文書分類ごとに、当該文書分類に関連付けられた前記文書から当該文書分類の規制名を抽出し、前記各文書分類の前記規制名を含む規制情報を生成する規制情報生成部とを有する。
本発明によれば、ユーザーは、未知の製品含有物質規制を容易に発見することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明の実施形態に係る規制検索装置の構成の一例を示すブロック図である。 検索キーワード情報のデータ構造の一例を示す図である。 規制文書のデータ構造の一例を示す図である。 物質名情報のデータ構造の一例を示す図である。 規制情報のデータ構造の一例を示す図である。 規制検索装置のハードウェア構成の一例を示すブロック図である。 規制検索装置の処理の一例を示すフローチャートである。 検索を開始するための操作画面の一例を示す図である。 タイトルから抽出された単語ベクトルの一例を説明する図である。 タイトルの類似度評価に基づく文書の分類処理の一例を説明する図である。 本文から抽出された単語ベクトルの一例を説明する図である。 分類を作成する処理及び規制名を抽出する処理の一例を説明する図である。 規制情報の出力画面の一例を示す図である。 規制情報の詳細出力画面の一例を示す図である。 本発明の実施形態の変形例に係る規制情報のデータ構造を示す図である。 変形例に係る規制情報の出力画面を示す図である。
本発明の実施形態を説明する前に、製品含有物質規制について補足的に説明する。
製品に含まれる化学物質を把握するためには、購入品に含まれる化学物質をチェックしなければならない。このことは、購入品の製造業者が更にサプライチェーンの上流の製造業者に対して同様のチェックを行わせる必要があることを意味しており、サプライチェーン全体に渡って大きな作業負荷を発生させる。このため既存の製品含有物質調査では、主な出荷先の国で規制されている化学物質を中心に調査を進める。
近年の市場のグローバル化は、製品の出荷先をより多くの国に拡大させている。このような状況では、新たな出荷先の国においてこれまで製品への含有を調査したことがない化学物質が規制されている、というリスクが高まっている。例えば、新たな出荷先の国において新たな規制物質が発見された場合、製品の製造業者は当該規制物質が購入品に含まれているか否かを再調査し、含まれている場合は当該製品を設計変更する必要が生じる。このような再調査や設計変更が製品の出荷先の国が増えるごとに発生すると、サプライチェーン全体に大きな作業負荷が生じるとともに、製品の出荷遅延の原因になる。
近年では、製品含有物質規制の情報は、官公庁などが公開する規制の本文そのものや、業界団体や調査会社などがレポートした規制文書の形式で、インターネットで公開されるので、インターネットから検索できることが多い。しかしながら、製品含有物質規制の調査者にとって未知の規制については、規制文書を一意に特定するキーワードを設定できない。そのため、調査者は、予想される関連キーワードを用いてあいまいな検索をすることになる。その結果、検索結果には、同一規制に関する情報が複数含まれるなど、膨大な数の無用情報が含まれることになる。このような検索結果から、調査者が未知の規制を発見することは困難である。
以下、本発明の実施形態について、図面を参照しながら説明する。
図1は、本発明の実施形態に係る規制検索装置の構成の一例を示すブロック図である。規制検索装置1は、インターネットに接続され、インターネット上に存在する製品含有物質規制に関する規制文書データ(以下、単に「規制文書」という)を検索する。インターネットに加えあるいは替えて、あらゆる種類の文書データが蓄積された特定のネットワークや記憶装置を検索してもよい。規制検索装置1は、演算部10と、記憶部20と、表示部30と、入力部40と、通信部50とを含む。
記憶部20は、演算部10が処理に使用する情報を格納する。具体的には、記憶部20は、検索キーワードDB21と、規制文書DB22と、物質名DB23と、規制情報DB24とを格納する。
検索キーワードDB21は、インターネットから規制文書を検索するための検索キーワードを生成するために用いられる検索キーワード情報を格納する。図2は、検索キーワード情報のデータ構造の一例を示す図である。検索キーワード情報は、分類コード21aと、要素21bとを関連付けたレコードを含む。図2の「No.」は、便宜的に付けた各レコードの番号を示す。分類コード21aは、言語的な意味に基づく要素21bの分類である。意味が同じ又は類似する要素21bは、同じ分類コード21aが付与されている。要素21bは、検索キーワードを構成する要素としてのキーワードである。要素21bには、製品含有物質規制を検索するために関連すると考えられるキーワードが予め登録される。後述するように、検索キーワードは、異なる分類コードに含まれる複数の要素の組み合わせによって構成される。
規制文書DB22は、インターネットから検索された少なくとも1つ以上の規制文書を格納する。インターネットで公開されている多くの規制文書は、少なくともタイトル部分と本文部分とを含む。このような規制文書には、例えば、HTML(HyperText Markup Language)やXML(eXtensible Markup Language)などの記述言語を用いた構造化文書のフォーマットが用いられる。図3は、規制文書のデータ構造の一例を示す図である。図3は、HTML形式の規制文書を概念的に示した図である。この規制文書からは、例えば、タイトル・タグ(<title>及び</title>)によって囲まれた部分をタイトル22aとして特定し、タイトル22a以外の部分を本文22bとして特定することができる。規制文書DB22は、各規制文書のデータを、タイトル部分と本文部分とを区別して保存する。規制文書のフォーマットは、タイトル及び本文を特定可能であれば、PDF(Portable Document Format)などのその他のフォーマットであってもよい。
物質名DB23は、規制文書から物質名を検索するために用いる物質名情報を格納する。図4は、物質名情報のデータ構造の一例を示す図である。物質名情報は、物質名23aと、CAS番号23bとを関連付けたレコードを含む。図4の「No.」は、便宜的に付けた各レコードの番号を示す。物質名23aは、既に知られている物質の名称である。物質の名称には、例えば、IUPAC(International Union of Pure and applied Chemistry)が定めた名称、研究機関などの機関が独自に定めた名称、その他の通称や略称などを用いることができる。図4では、1つの化学物質について1つの物質名が登録されているが、1つの化学物質について複数の物質名を登録してもよい。CAS番号23bは、アメリカ化学会(American Chemical Society)が定める化学物質のコードであり、化学物質を特定するコードとして広く使われている。
規制情報DB24は、インターネットから検索された規制文書に基づいて生成された規制情報を格納する。図5は、規制情報のデータ構造の一例を示す図である。規制情報は、規制名24aと、参考文書24bと、類似度24cと、更新日24dとを関連付けたレコードを含む。図5の「No.」は、便宜的に付けた各レコードの番号を示す。規制名24aは、参考文書24bが示す規制文書が規定する製品含有物質規制の名称である。参考文書24bは、例えばURL(Uniform Resource Locator)などの規制文書の格納場所やアドレスを示す情報である。類似度24cは、後述する規制分類処理により算出される、参考文書24bが示す規制文書と他の規制文書との類似度である。更新日24dは、参考文書24bが示す規制文書の更新日である。
表示部30は、操作画面などのインターフェイス画面を表示する。入力部40は、ユーザーの操作の入力を受け付ける。通信部50は、インターネットに接続し、情報の送受信を行う。
演算部10は、インターネット上に存在する文書集合から、製品含有物質規制に関する規制文書を検索する検索処理、検索した規制文書に基づいて規制情報を生成する生成処理などの処理を実行する。文書集合は、インターネット上に存在する閲覧可能な全ての文書データを含む意味である。具体的には、演算部10は、検索部11と、規制分類部12と、規制情報生成部15と、規制情報出力部16とを含む。規制分類部12は、タイトル分類部13と、本文分類部14とを含む。
検索部11は、検索キーワードDB21に格納されている検索キーワード情報に基づいて検索キーワードを1つ以上生成する。検索部11は、生成した検索キーワードにヒットする文書を、通信部50を介してインターネットで検索し、検索した文書を規制文書として規制文書DB22に格納する。検索部11の処理は、後に詳述する。
規制分類部12は、タイトル分類部13により決定された各規制文書の分類と、本文分類部14により決定された各規制文書の分類とに基づいて、これらの2つの分類の両方が一致する規制文書の集合を特定し、各集合に対して文書分類(「規制分類」と呼んでもよい)を生成する。また、規制分類部12は、生成した各文書分類に、対応する規制文書を関連付けることにより、規制文書DB22に格納されている各規制文書を分類する。規制分類部12の処理は、後に詳述する。
タイトル分類部13は、規制文書DB22に格納されている各規制文書のタイトルに基づいて、各規制文書のタイトルに含まれる単語の類似性を算出することにより、各規制文書を分類する。タイトル分類部13の処理は、後に詳述する。
本文分類部14は、物質名DB23に格納されている物質名情報を用いて、規制文書DB22に格納されている各規制文書の本文から物質名を抽出する。また、本文分類部14は、各規制文書の本文に含まれる物質名の類似性を算出することにより、各規制文書を分類する。本文分類部14の処理は、後に詳述する。
規制情報生成部15は、規制分類部12により生成された各文書分類に関連付けられた規制文書から規制名を抽出し、各文書分類に規制名を付与する。また、規制情報生成部15は、各文書分類の規制名を含む規制情報を生成し、規制情報DB24に格納する。規制情報生成部15の処理は、後に詳述する。
規制情報出力部16は、規制情報DB24に格納されている規制情報に基づいて、規制名の一覧を含む画面を生成し、表示部30に出力する。また、規制情報出力部16は、入力部40を介してユーザーの操作を受け付けて、規制情報に基づいて、規制に関する詳細を含む画面を生成し表示部30に出力する。例えば、規制情報出力部16は、通信部50を介して通信可能な外部装置に対して画面を出力したり、当該外部装置からユーザーの操作を受け付けたりしてもよい。規制情報出力部16の処理は、後に詳述する。
図6は、規制検索装置のハードウェア構成の一例を示すブロックである。規制検索装置1は、例えば、パーソナルコンピューターであるが、これに限らず、サーバーコンピューター、スマートフォン、タブレットコンピューター等の装置であってもよい。また、規制検索装置1は、複数のコンピューターにより構成されてもよい。
規制検索装置1は、例えば、演算装置101と、主記憶装置102と、外部記憶装置103と、出力装置104と、入力装置105と、通信装置106とを含む。
演算装置101は、例えば、CPU(Central Processing Unit)などの装置である。主記憶装置102は、例えば、RAM(Random Access Memory)などのメモリーである。外部記憶装置103は、例えば、ハードディスクやSSD(Solid State Drive)、あるいはフラッシュROMなどの不揮発性記憶装置である。
出力装置104は、ディスプレイ、プリンター、スピーカーなどを含む、出力情報を出力する装置である。入力装置105は、キーボードやマウスなどのポインティングデバイス、タッチパネル、マイクロフォンなどを含む、入力情報を受け付ける装置である。通信装置106は、ネットワークケーブルを介して有線通信を行う通信装置、アンテナを介して無線通信を行う通信装置を含む、情報を送受信する装置である。
演算部10は、例えば、演算装置101に処理を行わせるプログラムによって実現することができる。このプログラムは、例えば、主記憶装置102又は外部記憶装置103内に記憶され、実行にあたって主記憶装置102上にロードされ、演算装置101によって実行される。記憶部20は、例えば、主記憶装置102及び外部記憶装置103の少なくとも一方によって実現される。記憶部20は、例えば、通信部50を介して接続されるネットワーク上のストレージにより実現されてもよい。
表示部30は、例えば、出力装置104によって実現される。入力部40は、例えば、入力装置105によって実現される。通信部50は、例えば、通信装置106によって実現される。
図7は、規制検索装置の処理の一例を示すフローチャートである。検索キーワードDB21には、検索キーワード情報が予め格納されている。物質名DB23には、物質名情報が予め格納されている。
演算部10は、例えば、入力部40を介して規制文書の検索処理を開始する操作をユーザーから受け付けて、図7に示すフローチャートの処理を開始する。例えば、検索部11は、図8(検索を開始するための操作画面の一例を示す図)に示すような操作画面300を表示部30に出力する。操作画面300は、検索範囲のドメイン名を入力する入力欄310と、検索開始の指示を受け付ける検索開始ボタン320とを含んでいる。例えば、入力欄310の「.eu」は、欧州連合の「eu」ドメイン配下の全てのURLが示すサイトが検索範囲であることを示す。入力欄310には、トップドメインに限らず下位階層のドメインを入力することができる。入力欄310が空欄の場合は、インターネット上の全てのURLが示すサイトが検索範囲であることを示す。検索部11は、入力部40を介して検索開始ボタン320の操作を受け付けた場合に、ステップS10の処理を実行する。なお、操作画面300は、入力欄310を含んでいなくてもよい。
まず、検索部11は、検索キーワードを取得する(ステップS10)。具体的には、検索部11は、検索キーワードDB21から検索キーワード情報を読み出し、異なる分類コード21aを持つレコードからそれぞれ1つの要素21bを選択して組み合わせることにより検索キーワードを作成する。検索部11は、異なる分類コードを持つ要素の全ての組み合わせについて、検索キーワードを作成する。図2のデータの例において、仮に要素21bが5つの場合、分類コード「1」から選択される「substance」又は「chemical」の何れか1要素と、分類コード「2」から選択される「restriction」、「registration」、又は「authorization」の何れか1要素との組み合わせが、1つの検索キーワードである。この場合、検索キーワードは、全部で6個取得される。
それから、検索部11は、インターネットで文書を検索する(ステップS20)。具体的には、検索部11は、ステップS10で取得した検索キーワードから1つを選択して、選択した検索キーワードでインターネットを検索し、ヒットした文書のデータを規制文書DB22に格納する。操作画面300(図8)の入力欄310にドメインが設定されている場合は、検索部11は、当該ドメインを検索範囲として検索を実行する。検索部11は、ヒットした文書のデータとともに、当該文書のURLも規制文書DB22に格納する。キーワードを用いた検索技術は、既存の技術を利用できるため、説明を省略する。
それから、検索部11は、ステップS10で取得した全ての検索キーワードを選択したか否かを判定する(ステップS30)。全ての検索キーワードを選択していないと判定した場合(ステップS30:N)、検索部11は、再びステップS20の処理を実行する。
全ての検索キーワードを選択したと判定した場合(ステップS30:Y)、検索部11は、規制文書DB22に格納されている各文書について、タイトル部分と本文部分とを分割して保存する(ステップS40)。例えば、検索部11は、タイトル・タグ(<title>及び</title>)によって囲まれた部分をタイトルとして特定し、タイトル以外の部分を本文として特定すればよい。図3の規制文書の例では、タイトルとして「Restriction of the use of certain hazardous substances」の文字列が特定され、それ以外の文字列が本文として特定される。
それから、タイトル分類部13は、タイトルに基づいて規制文書を分類する(ステップS50)。具体的には、タイトル分類部13は、規制文書DB22から各規制文書のタイトルを読み出し、タイトル間の文字列(タイトルに含まれる単語)の類似性に基づいて規制文書を分類する。この処理について、具体例を用いて以下に詳細に説明する。
本実施形態では、文字列の類似性を評価する手法の一例として、ベクトル空間モデルを説明する。ベクトル空間モデルとは、文字列を単語に分解して単語の種類を次元とするベクトルを作成し、ベクトル演算を利用して文字列を分析する手法である。
図9は、タイトルから抽出された単語ベクトルの一例を説明する図である。縦軸13aは、規制文書DB22に格納されている各規制文書のタイトルに含まれる単語のリストである。横軸13bは、規制文書DB22に格納されている各規制文書のリストである。縦軸13aの単語と横軸13bの規制文書との交点は、当該規制文書に使われている当該単語の数を示している。例えば、「文書2」は、「restriction」、「hazardous」、「substance」という単語をそれぞれ1つずつ使っていることが分かる。
上述のように作成された図9の表において、列方向のデータは、単語の種類を次元としたベクトルとみなすことができる。このベクトルは、各規制文書のタイトルに使用される単語の種類と頻度(0又は1以上)を示している。この性質を利用して文字列に使われる単語の類似性を評価する手法としてコサイン類似度がある。コサイン類似度とは、2つのベクトルのなす角度θを用いて、2つの文字列の類似度を評価する手法である。2つの文字列の類似度は、例えば、これらの文字列から作成したベクトルa、bを用いて下記の式(1)で評価することができる。
cosθ = (a, b) / |a||b| ・・・(1)
(a, b)は、ベクトルの内積を示す。|a|、|b|は、ベクトルの大きさを示す。2つのベクトルは、2つのベクトルが成す角度θが小さいほど類似していると考えられる。従って、式(1)の右辺の値が大きいほど、2つのベクトルが類似していると判断できる。
規制文書の分類は、上記ようにして算出されたコサイン類似度を指標としたクラスタリング処理により行う。クラスタリング手法の一例として、階層的クラスター分析を用いる場合について説明する。
図10は、タイトルの類似度評価に基づく文書の分類処理の一例を説明する図である。縦軸は、コサイン類似度の逆数である。横軸は、規制文書のリストである。階層的クラスター分析では、まず、全ての文書の組み合わせについてコサイン類似度を評価し、類似度が最も高い(式(1)の逆数が最も小さい)文書の組み合わせを特定し、部分集合を作成する。次に、部分集合を1つの文書とみなして、再度文書間の類似度評価を行い、同様の処理を行う。以上の処理を全ての文書が1つの集合となるまで繰り返し行うと、図10に示すように部分集合を作成したときの類似度を縦軸に表した階層構造を作成することができる。図10の例では、「文書2」と「文書3」が最も類似しており、最初に部分集合が作成されている。さらに、「文書2」と「文書3」の部分集合と、「文書1」とにより、上位の部分集合が作成されている。規制文書の分類は、このように作成した文書の階層構造と、予め定めた閾値とを比較し、当該閾値より類似度が高い部分集合を同一規制に関する文書の集合(文書分類)であると判断することにより作成する。図10の例では、「文書1」、「文書2」、及び「文書3」が1つの分類に属し、「文書4」が他の分類に属する。
上述のようにして、タイトル分類部13は、規制文書DB22に格納されている全ての規制文書のタイトルに含まれる単語に基づいて、類似度の算出及びクラスタリングを繰り返すことにより、規制文書を分類する。
それから、本文分類部14は、本文に含まれる物質名に基づいて規制文書を分類する(ステップS60)。具体的には、本文分類部14は、規制文書DB22から各規制文書の本文を読み出し、本文に含まれる物質名を抽出し、各規制文書の本文間の文字列(本文に含まれる物質名)の類似性に基づいて規制文書を分類する。この処理について、具体例を用いて以下に詳細に説明する。
本実施形態では、文字列の類似性を評価する手法として、タイトルの場合(ステップS50)と同様にベクトル空間モデルを用いる。
図11は、本文から抽出された単語ベクトルの一例を説明する図である。縦軸14aは、規制文書DB22に格納されている各規制文書の本文から抽出された物質名のリストである。横軸14bは、規制文書DB22に格納されている各規制文書のリストである。縦軸14aの物質名と横軸14bの規制文書との交点は、当該規制文書に当該物質名が使われているか否かを示している。縦軸14aには、同一の物質については1つの物質名が設定される。物質名情報において1つの化学物質に対して複数の物質名が定義されている場合、縦軸14aには、これらの複数の物質名を代表する1つの物質名が設定される。図11の例では,「1」は物質名が本文中に存在することを示し、「0」は物質名が本文中に存在しないことを示している。例えば、「文書2」は、「Lead」、「Mercury」、「Cadmium」、及び「Hexavalent chromium」を含まず、「Polybrominated biphenyls」を含むことが分かる。
本文分類部14は、物質名DB23に格納されている物質名情報から各物質名23a及び各CAS番号23bを読み出し、読み出した各物質名23a及び各CAS番号23bに一致する物質名及びCAS番号を、各規制文書から抽出する。本文分類部14は、抽出した物質名、あるいは抽出したCAS番号に対応する物質名に、「1」を設定する。物質名情報において1つの化学物質に対して複数の物質名が定義されている場合に、これらの複数の物質名のうち1つを抽出すると、本文分類部14は、これらの複数の物質名を代表する物質名に、「1」を設定する。このようにすれば、複数の規制文書間において意図されている化学物質が同一であるにも関わらず、図11の表において異なる物質名として記録されることを回避する。
上述のように作成された図11の表において、列方向のデータは、物質名の種類を次元とするベクトルとみなすことができる。このベクトルは、各規制文書の本文に使用される物質名の種類と頻度(0又は1)を示している。従って、物質名の類似度評価にコサイン類似度を用い、階層的クラスタリング手法により本文を分類することで、規制文書を分類することができる。
上述のようにして、本文分類部14は、規制文書DB22に格納されている全ての規制文書の本文に含まれる物質名に基づいて、類似度の算出及びクラスタリングを繰り返すことにより、規制文書を分類する。
それから、規制分類部12は、タイトルの分類と本文の分類とに基づいて、文書分類を生成する(ステップS70)。規制分類部12は、ステップS50でタイトル分類部13により決定された各規制文書のタイトル分類と、ステップS60で本文分類部14により決定された各規制文書の本文分類とに基づいて、これらの2つの分類の両方が一致する規制文書の集合を特定し、各集合に対して文書分類を生成する。規制分類部12は、生成した各文書分類に、対応する規制文書を関連付ける。
図12は、分類を作成する処理及び規制名を抽出する処理の一例を説明する図である。縦軸12aは、文書のリストである。横軸は、タイトル分類12b、本文分類12c、文書分類12d、及び規制名12eである。図12の例では、「文書1〜4」が示されている。タイトル分類12bでは、「文書1〜3」は「A1」に分類され、「文書4」は「A2」に分類されている。本文分類12cでは、「文書2」及び「文書3」は「B1」に分類され、「文書1」及び「文書4」は「B2」に分類されている。タイトル分類12b及び本文分類12cに基づいて、文書分類12dが生成される。図12の例では、「文書2」と「文書3」が、タイトル分類「A1」と本文分類「B1」の両方で一致する。従って、文書分類12dとして「C1」が生成され、これらの文書に付与される。「文書1」は、タイトル分類と本文分類の両方が一致する他の文書がないため、文書分類12dとして個別の「C2」が生成され、付与される。「文書4」は、タイトル分類と本文分類の両方が一致する他の文書がないため、文書分類12dとして個別の「C3」が生成され、付与される。
規制文書は、タイトルに規制名に関する情報を含み、本文に規制物質に関する情報を含む傾向がある。従って、タイトルの分類と本文の分類の両方が等しい文書は、同一の規制に関する文書であると考えられる。この性質を利用して文書分類を生成することで、精度よく同一規制を特定することができるとともに、各規制文書を規制ごとにまとめることができる。
最後に、規制情報生成部15は、各文書分類に規制名を付与する(ステップS80)。具体的には、規制情報生成部15は、ステップS70で生成された各文書分類について、当該文書分類に関連付けられた各規制文書から1つのタイトルを選択し、当該文書分類の規制名として付与する。図12の例では、文書分類「C1」の規制名12eとして、「文書2」のタイトル「A1−2」が選択されている。文書分類「C2」の規制名12eとして、「文書1」のタイトル「A1−1」が選択されている。文書分類「C3」の規制名12eとして、「文書4」のタイトル「A2−1」が選択されている。
規制情報生成部15は、上述のように生成した各文書分類の規制名を含む規制情報を生成し、規制情報DB24に格納する。規制情報生成部15は、例えば、図5に示すように、規制名24aと、参考文書24bと、類似度24cと、更新日24dとを関連付けた規制情報を生成する。参考文書24bには、ステップS70で各文書分類に関連付けられた規制文書のURLなどが設定される。類似度24cには、ステップS60のクラスタリング処理において、参考文書24bが示す文書が、他の文書(部分集合を含む)に組み合わされたときの類似度が設定される。ステップS60のクラスタリング処理が開始された後、最初に組み合わされた文書の類似度24cには同じ値が設定される。更新日24dには、参考文書24bが示す文書の更新日が設定される。更新日は、例えば、更新日に関するキーワードあるいは日付を規制文書の中から検索して、抽出すればよい。
以上のようにして、図7に示すフローチャートの処理が終了する。
規制情報出力部16は、上述のように生成された規制情報に基づいて、規制名の一覧を含む画面を生成し、表示部30に出力する。
図13は、規制情報の出力画面の一例を示す図である。出力画面400は、規制名410と、更新日420と、開くボタン430とを対応付けたレコードを含む。規制情報出力部16は、規制情報DB24から規制情報を読み出し、同じ規制名24aについては1つの規制名410のレコードにまとめる。また、規制情報出力部16は、同じ規制名24aに関連付けられた更新日24dのうち、最新の更新日を更新日420として出力する。開くボタン430は、各レコードにまとめられた1つ以上の規制文書の詳細を表示するためのボタンである。
出力画面400の規制名410により、ユーザーは、どのような物質規制が存在するかを簡単に確認することができる。また、更新日420により、ユーザーは、日付に基づいて調査すべき物質規制を絞る(例えば、古い物質規制は調査対象外にする)など、関心のある物質規制を簡単に選ぶことができる。なお、規制情報出力部16は、同じ規制名24aに関連付けられた更新日24dのうち、最も古い更新日を更新日420として出力してもよい。
規制情報出力部16は、例えば、入力部40を介して、いずれかのレコードの開くボタン430の操作を受け付けた場合に、操作されたレコードにまとめられた、同じ規制名を有する1つ以上の規制文書の詳細を含む画面を生成し、表示部30に出力する。
図14は、規制情報の詳細出力画面の一例を示す図である。図14は、図13の出力画面400で、規制名「RoHS」に対応する開くボタン430が選択された場合を示している。詳細出力画面500は、規制名510と、参考文書520と、類似度530と、更新日540とを対応付けたレコードを含む。規制情報出力部16は、出力画面400で操作されたレコードにまとめられた、同じ規制名を有する1つ以上のレコードを、規制情報DB24の規制情報から読み出し、出力する。規制名510、参考文書520、類似度530、及び更新日540は、規制名24a、参考文書24b、類似度24c、及び更新日24dに対応する。規制情報出力部16は、読み出したレコードを、類似度530が大きい順に並べて出力する。
詳細出力画面500により、ユーザーは、関心のある物質規制について、関連する規制文書を簡単に確認することができる。また、ユーザーは、類似度が大きい規制文書を簡単に見つけて確認することができる。類似度が大きい規制文書は、同じ文書分類に含まれる文書の特徴を最もよく現していると考えられる。
以上、本発明の実施形態について説明した。本実施形態によれば、ユーザーにとって未知の製品含有物質規制をユーザーが容易に発見できる。本実施形態は、例えば、文書集合から検索した複数の文書を、文字列の類似度に基づいて分類し、各分類に規制名を付与する。本実施形態は、同一規制に関する複数の文書が検索される場合でも、これらの文書が属する1つの分類を1つの規制として特定する。これにより、ユーザーは、規制名の一覧を参考に、新たな製品物質規制を簡単に発見できる。また、ユーザーは、公開されている製品物質規制を簡単に網羅的に把握することが可能となる。
本発明は、上述の実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。以下、上述の実施形態と同じ構成については説明を省略し、上述の実施形態と異なる点を中心に説明する。
図15は、本発明の実施形態の変形例に係る規制情報のデータ構造を示す図である。規制情報は、規制名24a、参考文書24b、類似度24c、及び更新日24dに加え、国コード24eを含む。国コード24eは、参考文書24bが示す規制文書が規定する製品含有物質規制が適用される国の略称、又は識別コードなどである。
検索部11は、図7のステップS40の処理の後、規制文書DB22に格納されている各文書のタイトル又は本文の少なくとも一方から、国コードを抽出する。例えば、国名と国コードを対応付けた一覧表を記憶部20に予め格納する。検索部11は、当該一覧表の国名を用いて、各文書のタイトル又は本文から国名を検索する。また、検索部11は、当該一覧表を用いて、検索した国名を国コードに変換する。検索部11は、規制文書DB22に格納されている各規制文書に、抽出した国コードを関連付けて保存する。検索部11は、各規制文書から国名を使わずに直接国コードを抽出してもよい。
ステップS50〜S70は、上述の実施形態と同じである。ステップS80において、規制情報生成部15は、規制情報を生成する際に、各レコードについて、上述のように検索部11により抽出された規制文書の国コードを取得し、国コード24eとして関連付ける。このようにして、図15に示すような規制情報が生成される。
国コードの抽出は、検索部11が実行するのではなく、規制情報生成部15が実行してもよい。例えば、ステップS80において、規制情報生成部15は、規制情報を生成する際に、各レコードについて、規制文書の国コードを抽出し、国コード24eとして関連付ければよい。
図16は、変形例に係る規制情報の出力画面を示す図である。出力画面400は、規制名410、更新日420、及び開くボタン430に加え、国コード440を含む。規制情報出力部16は、規制情報DB24から規制情報を読み出し、国コード24e及び規制名24aの両方が同じレコードについては、1つの国コード440及び規制名410のレコードにまとめる。また、規制情報出力部16は、同じ国コード24e及び規制名24aに関連付けられた更新日24dのうち、最新の更新日を更新日420として出力する。
このような出力画面400により、ユーザーは、国別に製品含有物質規制を把握することができる。また、同一名称の規制が複数の国にある場合でも、ユーザーは、国別に規制を把握することができる。
規制情報出力部16は、例えば、入力部40を介して、いずれかのレコードの開くボタン430の操作を受け付けた場合に、操作されたレコードにまとめられた、同じ国コード及び規制名を有する1つ以上レコードを、規制情報DB24の規制情報から読み出し、詳細出力画面500に出力する。規制情報出力部16は、読み出したレコードを、類似度530が大きい順に並べて出力する。
このような詳細出力画面500により、ユーザーは、関心のある国の規制名について、関連する規制文書を簡単に確認することができる。ユーザーは、例えば、製品の出荷国別に規制文書を簡単に確認することができる。
上記の変形例では、検索部11又は規制情報生成部15は、規制文書から国コードを抽出するが、規制文書から国名を抽出し、これを規制情報DB24の規制情報に格納するようにしてもよい。この場合、規制情報出力部16は、国コードに替えてあるいは加えて国名を出力すればよい。
上述の実施形態では、規制情報の類似度24cには、本文類似度が設定されるが、タイトル類似度が設定されるようにしてもよい。また、規制情報の類似度24cには、本文類似度とタイトル類似度の両方を設定するようにしてもよい。また、詳細出力画面500の類似度530には、本文類似度とタイトル類似度の両方が表示されてもよい。この場合、各レコードは、本文類似度が大きい順、あるいはタイトル類似度が大きい順のいずれか選択された方法で、並べて出力すればよい。
上述の実施形態では、文書の分類処理に、コサイン類似度及び階層的クラスタリングを用いているが、規制文書を上述のようにタイトル分類及び本文分類に分類できれば、これらの手法に限定されない。
図1で示した規制検索装置1の構成は、規制検索装置1の構成を理解容易にするために、主な処理内容に応じて分類したものである。構成要素の分類の仕方や名称によって、本願発明が制限されることはない。規制検索装置1の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。また、各構成要素の処理は、1つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。また、各構成要素の処理又は機能の分担は、本発明の目的及び効果を達成できるのであれば、上述したものに限られない。
図7で示したフローチャートの処理単位は、規制検索装置1の処理を理解容易にするために、主な処理内容に応じて分割したものである。処理単位の分割の仕方や名称によって、本願発明が制限されることはない。規制検索装置1の処理は、処理内容に応じて、さらに多くの処理単位に分割することもできる。また、1つの処理単位がさらに多くの処理を含むように分割することもできる。さらに、本発明の目的及び効果を達成できるのであれば、上記のフローチャートの処理順序も、図示した例に限られるものではない。例えば、ステップS50とステップS60の順序は逆であってもよい。
本発明は、上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した各実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、本発明が、必ずしも説明した全ての構成要素を備えるものに限定されるものではない。また、ある実施形態の構成の一部を、他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に、他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現されてもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリーや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
1…規制検索装置、10…演算部、11…検索部、12…規制分類部、12a…縦軸、12b…タイトル分類、12c…本文分類、12d…文書分類、12e…規制名、13…タイトル分類部、13a…縦軸、13b…横軸、14…本文分類部、14a…縦軸、14b…横軸、15…規制情報生成部、16…規制情報出力部、20…記憶部、21…検索キーワードDB、21a…分類コード、21b…要素、22…規制文書DB、22a…タイトル、22b…本文、23…物質名DB、23a…物質名、23b…CAS番号、24…規制情報DB、24a…規制名、24b…参考文書、24c…類似度、24d…更新日、24e…国コード、30…表示部、40…入力部、50…通信部、101…演算装置、102…主記憶装置、103…外部記憶装置、104…出力装置、105…入力装置、106…通信装置、300…操作画面、310…入力欄、320…検索開始ボタン、400…出力画面、410…規制名、420…更新日、430…開くボタン、440…国コード、500…詳細出力画面、510…規制名、520…参考文書、530…類似度、540…更新日

Claims (12)

  1. 製品含有物質規制に関するキーワードを用いて、文書集合から複数の文書を検索する検索部と、
    前記検索された各文書の類似度に基づいて、複数の文書分類を生成し、前記生成された各文書分類に、対応する少なくとも1つ以上の前記文書を関連付ける規制分類部と、
    前記生成された文書分類ごとに、当該文書分類に関連付けられた前記文書から当該文書分類の規制名を抽出し、前記各文書分類の前記規制名を含む規制情報を生成する規制情報生成部と
    を有する規制検索装置。
  2. 請求項1に記載の規制検索装置であって、
    前記検索された各文書の第一の部分の第一の類似度に基づいて、前記各文書を分類する第一の分類部と、
    前記検索された各文書の第二の部分の第二の類似度に基づいて、前記各文書を分類する第二の分類部と
    を有し、
    前記規制分類部は、前記第一の分類部により決定された第一の分類と、前記第二の分類部により決定された第二の分類とに基づいて、前記複数の文書分類を生成する
    規制検索装置。
  3. 請求項2に記載の規制検索装置であって、
    前記規制分類部は、前記第一の分類と前記第二の分類の両方が一致する前記文書の集合に対して、一の前記文書分類を生成する
    規制検索装置。
  4. 請求項2に記載の規制検索装置であって、
    前記第一の部分は、前記各文書のタイトルであり、
    前記第一の分類部は、前記各文書の前記タイトルに含まれる単語の種類に基づいて、前記第一の類似度を算出し、
    前記第二の部分は、前記各文書の本文であり、
    前記第二の分類部は、前記各文書の前記本文に含まれる単語の種類に基づいて、前記第二の類似度を算出する
    規制検索装置。
  5. 請求項4に記載の規制検索装置であって、
    物質の名称又はコードを含む物質名情報を記憶する記憶部
    を有し、
    前記第二の分類部は、前記物質名情報を用いて前記各文書の本文から当該本文に含まれる物質の名称を抽出し、前記抽出された物質の名称に基づいて、前記第二の類似度を算出する
    規制検索装置。
  6. 請求項1に記載の規制検索装置であって、
    規制情報出力部を有し、
    前記規制情報生成部は、前記規制情報において前記各規制名に対応する少なくとも1つ以上の前記文書を示す情報を関連付け、
    前記規制情報出力部は、
    前記規制情報に基づいて、前記規制名の一覧を出力し、
    前記一覧の中から前記規制名を選択する操作を受け付けて、前記規制情報に基づいて、前記選択された規制名に関連付けられた少なくとも1つ以上の前記文書に関する情報を出力する
    規制検索装置。
  7. 請求項6に記載の規制検索装置であって、
    前記規制情報生成部は、前記規制情報において前記各文書に対応する前記類似度を関連付け、
    前記規制情報出力部は、前記規制情報に基づいて、前記選択された規制名に関連付けられた少なくとも1つ以上の前記文書に関する情報と当該文書に関連付けられた前記類似度とを出力する
    規制検索装置。
  8. 請求項6に記載の規制検索装置であって、
    前記規制情報生成部は、前記各文書から当該文書の更新日を抽出し、前記規制情報において前記各文書に対応する前記更新日を関連付け、
    前記規制情報出力部は、
    前記規制情報に基づいて、前記規制名と、前記規制名に関連付けられた最も新しい又は最も古い前記更新日とを含む前記一覧を出力する
    規制検索装置。
  9. 請求項8に記載の規制検索装置であって、
    前記規制情報出力部は、前記規制情報に基づいて、前記選択された規制名に関連付けられた少なくとも1つ以上の前記文書に関する情報と当該文書に関連付けられた前記更新日とを出力する
    規制検索装置。
  10. 請求項1に記載の規制検索装置であって、
    規制情報出力部を有し、
    前記規制情報生成部は、前記各文書から国名又は国コードを抽出し、前記規制情報において前記各規制名に対応する前記文書を示す情報と当該文書の前記国名又は前記国コードを関連付け、
    前記規制情報出力部は、
    前記規制情報に基づいて、前記規制名と前記国名又は前記国コードとの組み合わせ別に、前記規制名と前記国名又は前記国コードとを含む前記一覧を出力する
    規制検索装置。
  11. 請求項10に記載の規制検索装置であって、
    前記規制情報出力部は、前記一覧の中から前記組み合わせを選択する操作を受け付けて、前記規制情報に基づいて、前記選択された組み合わせに関連付けられた少なくとも1つ以上の前記文書に関する情報を出力する
    規制検索装置。
  12. 製品含有物質規制に関するキーワードを用いて、文書集合から複数の文書を検索するステップと、
    前記検索された各文書の類似度に基づいて、複数の文書分類を生成し、前記生成された各文書分類に、対応する少なくとも1つ以上の前記文書を関連付けるステップと、
    前記生成された文書分類ごとに、当該文書分類に関連付けられた前記文書から当該文書分類の規制名を抽出し、前記各文書分類の前記規制名を含む規制情報を生成するステップと
    をコンピューターの演算部に実行させる規制検索方法。
JP2015187204A 2015-09-24 2015-09-24 規制検索装置、及び規制検索方法 Pending JP2017062612A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015187204A JP2017062612A (ja) 2015-09-24 2015-09-24 規制検索装置、及び規制検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015187204A JP2017062612A (ja) 2015-09-24 2015-09-24 規制検索装置、及び規制検索方法

Publications (1)

Publication Number Publication Date
JP2017062612A true JP2017062612A (ja) 2017-03-30

Family

ID=58428782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015187204A Pending JP2017062612A (ja) 2015-09-24 2015-09-24 規制検索装置、及び規制検索方法

Country Status (1)

Country Link
JP (1) JP2017062612A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022115160A (ja) * 2021-01-28 2022-08-09 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022115160A (ja) * 2021-01-28 2022-08-09 ヤフー株式会社 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
McFarland et al. Big data and the danger of being precisely inaccurate
US8392472B1 (en) Auto-classification of PDF forms by dynamically defining a taxonomy and vocabulary from PDF form fields
JP5827208B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
Del Alamo et al. A systematic mapping study on automated analysis of privacy policies
JPWO2011001584A1 (ja) 情報分類装置、情報分類方法及び情報分類プログラム
WO2019142345A1 (ja) セキュリティ情報処理装置、情報処理方法及び記録媒体
US10503743B2 (en) Integrating search with application analysis
JP5056133B2 (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP2015036923A (ja) 評価集計装置、評価順位作成装置、評価集計方法及びプログラム
KR20110010664A (ko) 문서 분석 시스템
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP2017062612A (ja) 規制検索装置、及び規制検索方法
TWM527583U (zh) 可提供推薦搜尋清單的搜尋引擎裝置
Nair et al. Automatic Symptom Extraction from Unstructured Web Data for Designing Healthcare Systems
KR101078978B1 (ko) 문서 분류 시스템
Alam et al. A data-driven score model to assess online news articles in event-based surveillance system
Yoon et al. A conference paper exploring system based on citing motivation and topic
JP7173314B2 (ja) マッピング支援装置、マッピング支援方法、及びプログラム
CN109614467B (zh) 一种基于片段相似度的知识关联与动态组织方法和系统
KR101078966B1 (ko) 문서 분석 시스템
van der Linden et al. Evaluating the evaluators
JP2007280052A (ja) 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Börner et al. Replicable Science of Science Studies
JP5768009B2 (ja) 情報処理装置、情報処理方法およびプログラム
Khan et al. Repairing broken links using naive Bayes classifier