JP2011103038A

JP2011103038A - 用語間の対応関係抽出システム及び対応関係抽出プログラム

Info

Publication number: JP2011103038A
Application number: JP2009257213A
Authority: JP
Inventors: Osamu Oshima; 修大島; Gasuaki Takehara; 一彰竹原; Tomoyasu Okada; 智靖岡田
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2009-11-10
Filing date: 2009-11-10
Publication date: 2011-05-26

Abstract

【課題】テキストデータに基づいて各企業の商品名を抽出し、対応する製品分類に自動的に関連付ける技術を提供する。
【解決手段】一般名称としての製品分類を複数格納した製品分類辞書16と、入力されたテキスト文を形態素単位に分解すると共に、製品分類辞書16を参照し、各形態素の中で製品分類に該当するものに対して対応のタグを付する形態素解析処理部12と、タグを含む文字列パターンと、この文字列パターン中からタグを付された製品分類に属する具体的商品名として抽出すべき文字列の位置とを規定する抽出ルールを、複数格納しておく抽出ルール記憶部18と、テキスト文の中の抽出ルールにマッチする文字列パターン中の所定の位置に存する文字列をタグが付された製品分類に属する商品名として抽出し、この製品分類と商品名との組合せを関係情報記憶部20に格納する関係情報抽出部14とを備えた用語間の対応関係抽出システム10。
【選択図】図１

Description

この発明は用語間の対応関係抽出システム及び対応関係抽出プログラムに係り、特に、具体的な商品名（サービス名を含む）と、当該商品名が属する上位概念的な一般名称である製品分類（サービス分類を含む）との対応関係、あるいは具体的な商品名相互間の同義語としての対応関係を自動抽出する技術に関する。

現在、インターネット上には膨大な数のWebサーバが接続しており、ユーザはGoogle（登録商標）やYahoo!（登録商標）等の検索サイトにおいて任意のキーワードを入力することにより、各Webサーバにおいて公開されたWebファイルを自由に抽出することが可能となっている。
例えば、「認知症治療薬」という文字列をキーワードとして入力すれば、「認知症治療薬」という文字列を含んだWebファイルのリストがディスプレイに表示される。
この結果ユーザは、「認知症治療薬」に関する様々な情報を網羅的に把握することができ、その中に認知症治療薬の具体的な商品名が含まれている場合もある。
Google インターネットURL:http://www.google.co.jp/ 検索日：平成２１年１０月１５日

ただし、認知症治療薬に属する具体的な商品名をできるだけ多く取得したいユーザや、認知症治療薬に属する特定の商品名と同義異名の商品名を知りたいユーザには、ヒットした検索結果のリストを眺めつつ、多くのWebページを開いて内容を確認する作業が強いられる。
幸運にも、認知症治療薬の具体的商品名が網羅されたWebページに辿り着ければよいが、あらゆる商品分野についてこのようなWebページが用意されているわけではない。

ところで、個別商品の上位概念的な一般名称の概念体系については、現在でも辞書情報として一般に公開されている。図９はその一例を示すものであり、上位の製品分類である「医薬品」に対して、下位の製品分類である「抗がん剤」、「抗潰瘍剤」、「認知症治療薬」等が従属していることを示している。図示の便宜上、２階層の概念体系が示されているが、実際にはさらに深い階層構造を備えている。

したがって、このような製品分類について具体的な商品名を網羅的に関連付けたデータベースが存在すれば、ユーザは無駄な検索処理を繰り返すことなく、上位概念的な製品分類をキーワードとして入力することにより、ダイレクトに対応の商品名を取得することが可能となる筈である。同様に、同義語の関係を有する複数の商品名間に同義語であることを示す情報を登録しておくデータベースがあれば、ユーザはある商品名の同義語の存在をダイレクトに確認することが可能となる。

しかしながら、日々新たな商品が大量に市場に投入される現代社会において、人手を介して個々の商品名を製品分類に関連付けたり、商品名相互間の同義語関係を登録する作業を続けるのは、コスト的に見合わないのが実情である。

この発明は、このような現状を打開するために案出されたものであり、インターネット上で日々公開される大量のニュース記事やリリース情報等のテキストデータに基づいて各企業の商品名を抽出し、対応する製品分類に自動的に関連付ける技術の提供を目的としている。また、同様のテキストデータに基づいて、同義語の関係にある複数の商品名を自動的に抽出可能な技術の提供を目的としている。

上記の目的を達成するため、請求項１に記載した用語間の対応関係抽出システムは、一般名称としての製品分類を複数格納した製品分類辞書と、入力されたテキスト文を形態素単位に分解する手段と、上記の製品分類辞書を参照し、各形態素の中で製品分類に該当するものに対して、対応のタグを付する手段と、上記のタグを含む文字列パターンと、この文字列パターン中から上記タグを付された製品分類に属する具体的商品名として抽出すべき文字列の位置とを規定する抽出ルールを、複数格納しておく抽出ルール記憶手段と、上記のテキスト文の中に、上記抽出ルールにマッチする文字列パターンが存在しているか否かを探索する手段と、上記抽出ルールにマッチする文字列パターンが存在している場合に、当該文字列パターン中の所定の位置に存する文字列を、文中における上記タグが付された製品分類に属する商品名として抽出する手段と、この製品分類と商品名との組合せを、関係情報記憶手段に格納する手段とを備えたことを特徴としている。
上記の「製品分類」は、広く「サービス分類」をも含む概念である（以下同様）。
また、上記の「商品」は、広く「サービス」をも含む概念である（以下同様）。

請求項２に記載した用語間の対応関係抽出システムは、請求項１のシステムであって、さらに、上記の関係情報記憶手段を参照し、各形態素の中で商品名に該当するものに対して、対応のタグを付する手段と、上記のタグを含む文字列パターンと、この文字列パターン中から上記タグを付された商品名の同義語として抽出すべき文字列の位置とを規定する抽出ルールを、複数格納しておく抽出ルール記憶手段と、上記のテキスト文の中に、上記抽出ルールにマッチする文字列パターンが存在しているか否かを探索する手段と、上記抽出ルールにマッチする文字列パターンが存在している場合に、当該文字列パターン中の所定の位置に存する文字列を、文中における上記タグが付された基準となる商品名の同義語として抽出する手段と、この同義語としての商品名と基準となる商品名との組合せを、上記関係情報記憶手段に格納する手段とを備えたことを特徴としている。
上記の抽出ルールは、請求項１に記載した抽出ルール記憶手段に格納しておくこともできる。

請求項３に記載した用語間の対応関係抽出システムは、請求項２のシステムであって、さらに、上記同義語としての商品名が抽出された場合に、上記関係情報記憶手段を参照し、上記基準となる商品名に関連付けられた製品分類を取得する手段と、この製品分類に属する商品名として上記同義語としての商品名を認定し、この製品分類と同義語としての商品名との組合せを上記関係情報記憶手段に格納する手段とを備えたことを特徴としている。

請求項４に記載した用語間の対応関係抽出システムは、具体的商品名に該当する文字列を複数格納した商品名辞書と、入力されたテキスト文を形態素単位に分解する手段と、上記の商品名辞書を参照し、各形態素の中で商品名に該当するものに対して、対応のタグを付する手段と、上記のタグを含む文字列パターンと、この文字列パターン中から上記タグを付された商品名の同義語として抽出すべき文字列の位置とを規定する抽出ルールを、複数格納しておく抽出ルール記憶手段と、上記のテキスト文の中に、上記抽出ルールにマッチする文字列パターンが存在しているか否かを探索する手段と、上記抽出ルールにマッチする文字列パターンが存在している場合に、当該文字列パターン中の所定の位置に存する文字列を、文中における上記タグが付された基準となる商品名の同義語として抽出する手段と、この同義語としての商品名と基準となる商品名との組合せを、関係情報記憶手段に格納する手段とを備えたことを特徴としている。

請求項５に記載した用語間の対応関係抽出プログラムは、コンピュータを、一般名称としての製品分類を複数格納した製品分類辞書、入力されたテキスト文を形態素単位に分解する手段、上記の製品分類辞書を参照し、各形態素の中で製品分類に該当するものに対して、対応のタグを付する手段、上記のタグを含む文字列パターンと、この文字列パターン中から上記タグを付された製品分類に属する具体的商品名として抽出すべき文字列の位置とを規定する抽出ルールを、複数格納しておく抽出ルール記憶手段、上記のテキスト文の中に、上記抽出ルールにマッチする文字列パターンが存在しているか否かを探索する手段、上記抽出ルールにマッチする文字列パターンが存在している場合に、当該文字列パターン中の所定の位置に存する文字列を、文中における上記タグが付された製品分類に属する商品名として抽出する手段、この製品分類と商品名との組合せを、関係情報記憶手段に格納する手段として機能させることを特徴としている。

請求項１に記載した用語間の対応関係抽出システム及び請求項５に記載した対応関係抽出プログラムによれば、テキスト中から自動的に一般名称である製品分類と、この製品分類に属する具体的商品名との組合せが抽出され、関係情報記憶手段に格納される仕組みを備えているため、製品分類と関連付けられた商品名のデータベースを極めて効率的に構築することが可能となる。

請求項２及び請求項４に記載した用語間の対応関係抽出システムによれば、テキスト中から自動的に基準となる商品名と、この商品名に対して同義語の関係を有する商品名との組合せが抽出され、関係情報記憶手段に格納される仕組みを備えているため、同義語商品名のデータベースを極めて効率的に構築することが可能となる。

請求項３に記載した用語間の対応関係抽出システムによれば、同義語としての商品名が抽出された場合に、併せて当該商品名の属する一般名称としての製品分類も認定され、関係情報記憶手段に格納される仕組みを備えているため、製品分類と関連付けられた商品名のデータベースをより効率的に構築することが可能となる。

図１は、この発明に係る用語間の対応関係抽出システム10の全体構成を示すブロック図であり、形態素解析処理部12と、関係情報抽出部14と、製品分類辞書16と、抽出ルール記憶部18と、関係情報記憶部20とを備えている。
関係情報記憶部20には、検索サーバ22が接続されており、通信ネットワーク24を介して接続された複数のクライアント端末26に対し商品名検索サービスを提供する。

上記の形態素解析処理部12及び関係情報抽出部14は、コンピュータのCPUが、OS及びアプリケーションプログラムに従って必要な処理を実行することによって実現される。
また、上記の製品分類辞書16、抽出ルール記憶部18及び関係情報記憶部20は、同コンピュータのハードディスク内に設けられている。

製品分類辞書16内には、一般名称としての製品分類が格納されている。
図２は、製品分類辞書の登録内容を例示するものであり、各種商品が属すべき製品分類が、上位概念（「医薬品」等）及び下位概念（「抗がん剤」等）に区分された上で、多数登録されている。
この場合、上位概念及び下位概念の２階層で各製品の一般名称を分類しているが、「上位概念−中位概念−下位概念…」のように、さらに細分化した製品分類を登録しておくこともできる。

つぎに、このシステム10による処理内容を説明する。
まず、形態素解析処理部12により、外部から入力されたWebファイル等のテキストデータ32に対する形態素解析が実行される。ここで「形態素解析」とは、自然言語で記述された文を、意味を有する最小の言語単位である形態素に分解し、それぞれの品詞を同定する処理をいう。

例えば、［ビーケイ製薬は、米国でアルツハイマー型認知症治療薬「アキテクト」と抗潰瘍剤の新製品「アキフェクス」（日本名エリエット）の生産を開始する。］という文が与えられた場合、図３に示すように、形態素解析処理部12はこれを［ビーケイ／名詞，一般］、［製薬／名詞，一般］、［は／助詞，係助詞］…のように分解し、それぞれの品詞を特定する。
この形態素解析自体は公知技術であり、例えば以下のようなフリーソフトを形態素解析エンジンとして用いることができる。
(1) MeCab（http://mecab.sourceforge.net/）
(2) ChaSen（http://chasen.naist.jp/hiki/ChaSen/）

形態素解析処理部12は、製品分類辞書16を参照し、その登録内容を形態素解析の結果に反映させる。
例えば、［認知症治療薬］という語は、一般的な形態素解析エンジンに投入すると［認知／名詞，サ変接続］、［症／名詞，接尾］、［治療／名詞，サ変接続］、［薬／名詞，接尾］のように細分化されてしまうことになるが、製品分類辞書16に［認知症治療薬］が製品分類として登録されているため、形態素解析処理部12は［認知症治療薬］という結合語を一形態素として認定し、＜製品＞のタグを品詞項目に追記している。

同様に、［抗潰瘍剤］という語は、一般的な形態素解析エンジンでは［抗／接頭詞，名詞接続］、［潰瘍／名詞，一般］、［剤／名詞，接尾］のように細分化されてしまうことになるが、製品分類辞書16に［抗潰瘍剤］が製品分類として登録されているため、形態素解析処理部12は［抗潰瘍剤］という結合語を一形態素として認定し、＜製品＞のタグを品詞項目に追記している。

つぎに関係情報抽出部14が起動し、形態素解析処理部12によって形態素単位に分解された文に対して抽出ルール記憶部18に格納された抽出ルールを適用することにより、対応関係情報を抽出する。

図４は抽出ルールの具体例を示すものであり、図４(a)の［ルール１］には、抽出対象として［商品名］が、パターンとして［＜feature：製品＞「（.*）」］が、基準概念として［＜feature：製品＞］が定義されている。
これは、＜製品＞のタグが付された語の直後に位置するカギ括弧で囲まれた文字列を、該当の製品分類に属する商品名として抽出すべきことを意味している。
因みに、［.*］の文字列は、改行を除く任意の文字列の０文字以上の連続を意味しており、これを後方参照を意味する［（］と［）］の括弧で囲むことにより、まずパターン全体が文とマッチするか否かの判定を行い、マッチした場合には当てはまる文字列を参照することを規定している（以下同様）。

これに対し、図４(b)の［ルール２］には、抽出対象として［商品名］が、パターンとして［＜feature：製品＞の新商品「（.*）」］が、基準概念として［＜feature：製品＞］が定義されている。
これは、＜製品＞のタグが付された語に［の新製品］の文字列及びカギ括弧が続く場合、カギ括弧で囲まれた文字列を、該当の製品分類に属する商品名として抽出すべきことを意味している。

図４(c)の［ルール３］には、抽出対象として［同義語］が、パターンとして［＜feature：商品名＞」（日本名（.*））］が、基準概念として［＜feature：商品名＞］が定義されている。
これは、＜商品名＞のタグが付された語に［」（日本名○○）］のパターンが続く場合、［○○］の部分を該当の商品名と同義語の関係を有する商品名として抽出すべきことを意味している。

図５は、先の例文中の［アルツハイマー型認知症治療薬「アキテクト」］の部分がルール１にマッチする結果、製品分類：［認知症治療薬］に対して［アキテクト］の文字列が商品名として関連付けられた様子が示されている。
この図５(c)の対応関係情報は、関係情報抽出部14によって関係情報記憶部20に格納される。

図６は、先の例文中の［抗潰瘍剤の新製品「アキフェクス」］の部分がルール２にマッチする結果、製品分類：［抗潰瘍剤］に対して［アキフェクス］の文字列が商品名として関連付けられた様子が示されている。
この図６(c)の対応関係情報も、関係情報抽出部14によって関係情報記憶部20に格納される。

図７は、先の例文中の［アキフェクス」（日本名エリエット）］の部分がルール３にマッチする結果、商品名：［アキフェクス］に対して［エリエット］の文字列が同義語として関連付けられた様子が示されている。
この前提として、関係情報抽出部14は事前に関係情報記憶部20を参照して［アキフェクス］が商品名であることを認識した上で、［アキフェクス］に対して＜商品名＞のタグを付与しておく。
つぎに関係情報抽出部14は、［アキフェクス」（日本名○○○）］の文字列パターンが文中に存在していることを確認し、［エリエット］を基準となる商品名［アキフェクス］に対して同義語の関係を有する商品名と認定する。
また、関係情報抽出部14は関係情報記憶部20を参照した際に［アキフェクス］が抗潰瘍剤の商品名であることを取得しているため、その同義語である［エリエット］も抗潰瘍剤に属する商品名であると認定する。
関係情報抽出部14は、この２種類の対応関係情報（図７(c)及び(d)）を関係情報記憶部20に格納する。

図８は、以上の処理結果を整理したものであり、製品分類辞書16に登録された一般名称である［認知症治療薬］に対して［アキテクト］の文字列が商品名として関連付けられると共に、同じく一般名称である［抗潰瘍剤］に対して［アキフェクス］及び［エリエット］の文字列が商品名として関連付けられ、さらに［アキフェクス］と［エリエット］間に同義語の関係が関連付けられた様子が図示されている。

図４に示した抽出ルールは一例であり、抽出ルール記憶部18には、多様なパターンを備えた自然文から［製品分類→商品名］の関係や［商品名→同義語］の関係を有効に抽出することができるように、多数の抽出パターンが用意されている。
例えば、ルール１の変形例として［パターン：＜feature：製品＞"（.*）"］を用意しておくことにより、［アルツハイマー型認知症治療薬"アキテクト"］の文字列パターンから［認知症治療薬（製品分類）→アキテクト（商品名）］の関係を抽出可能となる。
また、ルール２の変形例として［パターン：＜feature：製品＞の新製品である（.*）］を用意しておくことにより、［抗潰瘍剤の新製品であるアキフェクス］の文字列パターンから［抗潰瘍剤（製品分類）→アキフェクス（商品名）］の関係を抽出可能となる。

このシステム10を連続的に稼働させ、日々更新されるインターネット上の公開テキスト情報（ニュース記事等）をシステム10に投入することにより、関係情報記憶部20内には、様々な分野の一般名称（製品分類）に対して、具体的な商品名が関連付けられていく。

そして、関係情報記憶部20に格納された情報を検索サーバ22を介して検索対象として公開することにより、ユーザは一般名称としての製品分類に属する具体的な商品名を網羅的に取得することが可能となる。

また、ある企業名と具体的な商品名を関連付けた多数の企業情報が所定のデータベースに格納されていた場合に、この関係情報記憶部20に格納された用語間の関係情報を参照することにより、固有名詞としての商品名が属する製品分類を取得することが可能となる。
例えば、［ビーケイ製薬→アキテクト］の企業情報に対して、関係情報記憶部20に格納された［認知症治療薬→アキテクト］の関係情報を適用することにより、［ビーケイ製薬→認知症治療薬→アキテクト］の企業情報を生成することが可能となり、ビーケイ製薬が認知症治療薬の製造メーカーであることが判明する。

上記においては、製品分類と商品名間の対応関係を抽出する処理と、商品名相互間の同義語関係を抽出する処理を同時に実行する例を示したが、両者を別個独立に実行するようにシステムを構成することも可能である。
なお、商品名相互間の同義語関係を抽出する処理を独立して実行する場合には、商品名に該当する文字列を予め多数登録しておく商品名辞書を設けておき、形態素解析処理部12がこの辞書を参照することにより、商品名に該当する形態素に対して事前に＜商品名＞のタグを付与しておく。

この発明に係る用語間の対応関係抽出システムの機能構成を示すブロック図である。製品分類辞書の登録内容を例示する図表である。形態素解析の結果を示す図表である。抽出ルールの具体例を示す説明図である。ルール１の適用例を示す説明図である。ルール２の適用例を示す説明図である。ルール３の適用例を示す説明図である。処理結果のイメージを示す説明図である。製品分類辞書の構造を例示する説明図である。

10 用語間の対応関係抽出システム
12 形態素解析処理部
14 関係情報抽出部
16 製品分類辞書
18 抽出ルール記憶部
20 関係情報記憶部
22 検索サーバ
24 通信ネットワーク
26 クライアント端末
32 テキストデータ

Claims

一般名称としての製品分類を複数格納した製品分類辞書と、
入力されたテキスト文を形態素単位に分解する手段と、
上記の製品分類辞書を参照し、各形態素の中で製品分類に該当するものに対して、対応のタグを付する手段と、
上記のタグを含む文字列パターンと、この文字列パターン中から上記タグを付された製品分類に属する具体的商品名として抽出すべき文字列の位置とを規定する抽出ルールを、複数格納しておく抽出ルール記憶手段と、
上記のテキスト文の中に、上記抽出ルールにマッチする文字列パターンが存在しているか否かを探索する手段と、
上記抽出ルールにマッチする文字列パターンが存在している場合に、当該文字列パターン中の所定の位置に存する文字列を、文中における上記タグが付された製品分類に属する商品名として抽出する手段と、
この製品分類と商品名との組合せを、関係情報記憶手段に格納する手段と、
を備えたことを特徴とする用語間の対応関係抽出システム。
上記の関係情報記憶手段を参照し、各形態素の中で商品名に該当するものに対して、対応のタグを付する手段と、
上記のタグを含む文字列パターンと、この文字列パターン中から上記タグを付された商品名の同義語として抽出すべき文字列の位置とを規定する抽出ルールを、複数格納しておく抽出ルール記憶手段と、
上記のテキスト文の中に、上記抽出ルールにマッチする文字列パターンが存在しているか否かを探索する手段と、
上記抽出ルールにマッチする文字列パターンが存在している場合に、当該文字列パターン中の所定の位置に存する文字列を、文中における上記タグが付された基準となる商品名の同義語として抽出する手段と、
この同義語としての商品名と基準となる商品名との組合せを、上記関係情報記憶手段に格納する手段と、
を備えたことを特徴とする請求項１に記載の用語間の対応関係抽出システム。
上記同義語としての商品名が抽出された場合に、上記関係情報記憶手段を参照し、上記基準となる商品名に関連付けられた製品分類を取得する手段と、
この製品分類に属する商品名として上記同義語としての商品名を認定し、この製品分類と同義語としての商品名との組合せを上記関係情報記憶手段に格納する手段と、
を備えたことを特徴とする請求項２に記載の用語間の対応関係抽出システム。
具体的商品名に該当する文字列を複数格納した商品名辞書と、
入力されたテキスト文を形態素単位に分解する手段と、
上記の商品名辞書を参照し、各形態素の中で商品名に該当するものに対して、対応のタグを付する手段と、
上記のタグを含む文字列パターンと、この文字列パターン中から上記タグを付された商品名の同義語として抽出すべき文字列の位置とを規定する抽出ルールを、複数格納しておく抽出ルール記憶手段と、
上記のテキスト文の中に、上記抽出ルールにマッチする文字列パターンが存在しているか否かを探索する手段と、
上記抽出ルールにマッチする文字列パターンが存在している場合に、当該文字列パターン中の所定の位置に存する文字列を、文中における上記タグが付された基準となる商品名の同義語として抽出する手段と、
この同義語としての商品名と基準となる商品名との組合せを、関係情報記憶手段に格納する手段と、
を備えたことを特徴とする用語間の対応関係抽出システム。
コンピュータを、一般名称としての製品分類を複数格納した製品分類辞書、
入力されたテキスト文を形態素単位に分解する手段、
上記の製品分類辞書を参照し、各形態素の中で製品分類に該当するものに対して、対応のタグを付する手段、
上記のタグを含む文字列パターンと、この文字列パターン中から上記タグを付された製品分類に属する具体的商品名として抽出すべき文字列の位置とを規定する抽出ルールを、複数格納しておく抽出ルール記憶手段、
上記のテキスト文の中に、上記抽出ルールにマッチする文字列パターンが存在しているか否かを探索する手段、
上記抽出ルールにマッチする文字列パターンが存在している場合に、当該文字列パターン中の所定の位置に存する文字列を、文中における上記タグが付された製品分類に属する商品名として抽出する手段、
この製品分類と商品名との組合せを、関係情報記憶手段に格納する手段、
として機能させることを特徴とする用語間の対応関係抽出プログラム。