JP3207947B2 - 内容抽出装置 - Google Patents
内容抽出装置Info
- Publication number
- JP3207947B2 JP3207947B2 JP31670692A JP31670692A JP3207947B2 JP 3207947 B2 JP3207947 B2 JP 3207947B2 JP 31670692 A JP31670692 A JP 31670692A JP 31670692 A JP31670692 A JP 31670692A JP 3207947 B2 JP3207947 B2 JP 3207947B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- symbol string
- term
- fixed position
- processing means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ら,特定の内容を表した情報を抜き出して,データベー
スに保存する,検索に利用するなどの用途に使用する内
容抽出装置に関する。
学会論文誌,Vol.29, No.8, pp760-769,1988「見出し情
報を用いたテキスト解析と情報抽出」』に見られるよう
に,抽出項目を指定したフレームを用意しておき,各フ
レームをサブフレームで定義し,各サブフレームとして
格情報や当てはまるべき用語のカテゴリ等によって照合
条件を記述し,日本語辞書等を用いて,形態素解析およ
び構文解析を行って,解析結果の格構造を参照しなが
ら,用意したフレームとの照合を行う方法が知られてい
る。しかしながら,このような方法は,解析が正しく行
われることを前提としており,辞書中にない単語(未知
語)がある場合などは解析に失敗することが多く,抽出
に失敗する。
出する場合,新製品名はほとんど未知語であることが多
いので,未知語が含まれることを前提とした処理が必要
となる。
素解析および構文解析が正しく行われるためには,日本
語辞書,格構造パターンなど膨大な知識を必要とする。
膨大な知識を必要とせず,未知語も許したパターン抽出
方法として,任意の文字列との一致を許したワイルドカ
ードを用いた方法が,エディタや検索システムで用いら
れているが,抽出パターンはワイルドカードと文字によ
る記号列での定義のみであるため,複雑な条件を伴う記
述はできなかった。
点を解決するため,抽出条件の中に,任意の文字列と一
致するワイルドカードの記述を許して,しかも,複雑な
条件も簡単に記述できる抽出パターンを用いて,情報抽
出を行うことができる内容抽出装置を提供することを目
的とする。
文書から特定の内容を表した情報を抜き出すような計算
機システムの装置であって,あらかじめ定義された抽出
パターンに基づいて,被照合対象記号列が抽出パターン
と一致するか否かを判定し,一致した場合には被照合対
象記号列のどの部分が一致したかを出力する内容抽出装
置に関する。
ターン入力手段,抽出パターン解析手段,照合処理起動
手段,固定位置照合処理手段を備える。抽出パターン入
力手段は,抽出パターンがトップパターンと複数のサブ
パターンとサブパターン名を介した参照接続とで定義さ
れ,サブパターンおよびトップパターンが,任意の記号
列と一致することを表すワイルドカード項,サブパター
ン名で表されるサブパターン項,いくつかのサブパター
ンのうちの一つが一致したときに入力記号列に一致した
とみなされる選言項または一般項の連糸接続で定義さ
れ,選言項がサブパターンの選言接続で定義され,一般
項が終端記号列で定義される記述に基づく抽出パターン
を入力する処理手段である。
内部構造に変換する処理手段である。照合処理起動手段
は,被照合対象記号列が入力されると,被照合対象記号
列を固定位置照合処理手段への指定入力記号列とし,抽
出パターン解析手段で内部構造に変換された抽出パター
ンを固定位置照合処理手段への指定パターンとして,固
定位置照合処理手段を起動する処理手段である。
一部または全部である指定パターンと,被照合対象記号
列の一部または全部である指定入力記号列が入力される
と,指定パターン中の項間の連糸接続関係に基づいて,
指定入力記号列が指定パターンと一致するか否かを,ワ
イルドカード項,サブパターン名で表されるサブパター
ン項,選言項および一般項を含む項の種類に応じた照合
により検出し,一致した場合には指定入力記号列のどの
部分が一致したかを示す情報を出力する処理手段であ
る。
ような個別処理選択部と,任意位置照合処理部と,ワイ
ルドカード項処理部と,サブパターン項処理部と,一般
項処理部と,選言項処理部とを備える。
続された項の先頭項が,ワイルドカード項,サブパター
ン項,一般項,選言項,のいずれであるかを判定し,各
々の場合に応じて,ワイルドカード項処理部,サブパタ
ーン項処理部,一般項処理部,選言項処理部を起動する
処理手段である。
定したまま,指定入力記号列の任意位置からの記号列を
固定位置照合処理手段への指定入力記号列として変化さ
せて,固定位置照合処理手段を繰り返し起動することに
よって,指定入力記号列の任意位置からの記号列が指定
されたパターンと一致するか否かを判定し,一致した場
合には,記号列の照合開始位置を出力する処理手段であ
る。
の先頭項であるワイルドカード項の次の項以降のパター
ンを任意位置照合処理部への指定パターンとし,指定入
力記号列をそのまま任意位置照合処理部への指定入力記
号列として,任意位置照合処理部を起動することによっ
て,指定パターンと指定入力記号列の一致を判定し,指
定入力記号列と任意位置照合処理部から出力される照合
開始位置とから,ワイルドカード項と一致する指定入力
記号列中の部分記号列を決定する処理手段である。
で参照接続されるサブパターンをサブパターン項と置き
換えた指定パターンを固定位置照合処理手段への指定パ
ターンとして固定位置照合処理手段を起動する処理手段
である。
ある一般項の記号列が指定入力記号列の先頭からの部分
記号列と一致するかを判定し,一致した場合には,記号
列と一致した部分記号列の次の文字位置以降を固定位置
照合処理手段への指定入力記号列として,一般項の連糸
接続された次の項以降のパターンを固定位置照合処理手
段への指定パターンとして固定位置照合処理手段を起動
することによって,指定パターンと指定入力記号列の一
致を判定する処理手段である。
パターンを固定位置照合処理手段への指定パターンと
し,指定入力記号列をそのまま固定位置照合処理手段へ
の指定入力記号列として固定位置照合処理手段を起動す
ることによって,選言接続されたパターンのうちいずれ
と一致するかを判定して,指定パターンと指定入力記号
列の一致を判定する処理手段である。
入力手段は,サブパターンおよびトップパターンを定義
する連糸接続中にさらに省略項を加えることができるよ
うにされ,その省略項がサブパターンで定義される記述
に基づく抽出パターンを入力するよう構成される。そし
て,固定位置照合処理手段は,省略項に対しては,省略
項を定義するサブパターンを含むパターンで照合を行
い,不一致の場合には,そのサブパターンを含まないパ
ターンで照合を行うよう構成される。
理手段において,指定パターンの先頭項が省略項の場合
には,省略項処理部を起動するように個別処理選択部を
構成し,指定パターンの先頭項が省略項であるパターン
を固定位置照合処理手段への指定パターンとして,指定
入力記号列をそのまま固定位置照合処理手段への指定入
力記号列として,固定位置照合処理手段を起動し,不一
致だった場合には,省略項の次の項以降のパターンを固
定位置照合処理手段への指定パターンとして,指定入力
記号列をそのまま固定位置照合処理手段への指定入力記
号列として,前記固定位置照合処理手段を起動すること
により,指定パターンと指定入力記号列の一致を判定す
る省略項処理部を設けている。
ド項にワイルドカード名を対応させるよう抽出パターン
解析手段を構成する。また,ワイルドカード名に対応し
てサブパターンを定義し,ワイルドカード項と一致する
指定入力記号列中の部分記号列が決定された時に,該部
分記号列を指定入力記号列とし,ワイルドカード項のワ
イルドカード名に対応するサブパターンを指定パターン
として,固定位置照合処理手段を起動するよう前記ワイ
ルドカード項処理部を構成している。
列の記号として単語を扱うように構成される。さらに請
求項6記載の発明は,被照合対象記号列から抽出された
単語が表記,品詞,意味カテゴリなどの複数の項目の情
報を持ち,抽出パターンの一般項に対応する終端記号が
表記,品詞,意味カテゴリのいずれか一つあるいは複数
の項目の情報を持ち,一般項処理部における記号同士の
比較において,抽出パターン側の終端記号が持っている
項目の情報のみが一致すれば,指定入力記号列の記号と
指定パターンの記号が一致したと判定するように構成さ
れる。
項,選言項,一般項等の連糸接続で定義されるパターン
の組み合わせで抽出パターンを定義しておき,抽出パタ
ーン解析手段で抽出パターンを内部構造に変換し,被照
合対象記号列が入力されると,照合処理起動手段で固定
位置照合処理手段を起動し,固定位置照合処理手段で抽
出パターンの各項の種類に応じた照合処理を行うことに
より,抽出パターンと被照合対象記号列との対応関係を
決定して,必要な情報の抽出を行うことができるように
したものである。
カード項に対しては,任意の記号列と一致させ,サブパ
ターン項に対しては,サブパターン名で参照接続された
サブパターンでサブパターン項が置き換わったとみなし
て照合を行い,選言項に対しては,選言接続されたサブ
パターンのいずれか一つが指定入力記号列と一致した場
合を,選言項と指定入力記号列とが一致したとみなし,
一般項に対しては,一般項を定義する終端記号列が指定
入力記号列と一致した場合を,一般項と指定入力記号列
とが一致したとみなして照合を行う。
は抽出パターン記述の書式定義の例を示した図であり,
図3は図2の書式定義に基づいて記述された抽出パター
ンの記述例を示した図である。
「,」で区切られた要素からなる集合を表す。「””」
で囲まれた文字列は,その文字列をそのまま記述するこ
とを表す。「()」内の「|」で区切った表記は,それ
により区切られた要素のいずれか一つを記述することを
表す。
象記号列が全角文字列(以下,単に文字列と呼ぶ)の場
合について説明する。まず,図3の抽出パターンの記述
例について説明する。
定義,2行目以降はサブパターンの定義である。各々
「=」の左辺はパターン名を示している。各パターンは
項の連糸接続で定義される。ここでは,項を並べて書く
ことにより連糸接続を表し,連糸接続を表す記号は特に
用いない。選言項は()で,他の項は<>で囲って記述
するが,全角文字一つからなる一般項のみは,<>で囲
わなくてもよい。図3の場合,ワイルドカード項をワイ
ルドカード名で記述しているが,ワイルドカード名を用
いずに,ワイルドカードを表す予め定めた記号を用いて
もよい。
を表し,ワイルドカード名でワイルドカード項を表し,
任意の文字列と一致させることを表す。「%」で始まる
文字列はサブパターン名を表し,サブパターン名でサブ
パターン項を表す。サブパターン項は,サブパターン名
で定義されたサブパターンと置き換えられることを表
す。なお,「@」および「%」は,本実施例における抽
出パターンの記述では半角文字を使用することにしてい
るが,本文の説明中では見やすくするため全角文字で表
記する。
定義され,選言パターンは複数のサブパターンを「|」
で区切って定義し,各々サブパターンのいずれかと一致
させることを表す。例えば,図3のサブパターン「%数
詞1」は「十」「二十」「三十」のいずれかと一致すれ
ばよい。
ン入力手段1,抽出パターン解析手段2,照合処理起動
手段3,固定位置照合処理手段4で構成される。図5
は,本発明の処理手順を示す図である。図1および図5
を基に,図3の抽出パターンを用いて,処理手順を説明
する。
ーンを入力すると(ステップ101),抽出パターン
は,抽出パターン解析手段2で図4に示すような内部構
造に変換される(ステップ102)。サブパターンは,
サブパターン名を介して参照接続される。選言項は,選
言項を表すノード「OR」と選言パターンとの参照接続
で表し,選言パターンは,サブパターンと参照接続され
た選言子項ノード「|」の選言接続で表している。な
お,サブパターンの最終項は,そのサブパターンと参照
接続された親パターンの項の連糸接続先と同じ項に連糸
接続されているものとして処理を行う。
介表現のパターン中の7番目の項「、」に連糸接続さ
れ,「%数詞」は「日」に連糸接続されていると解釈す
る。被照合対象記号列が入力されると(ステップ10
3),照合処理起動手段3により,被照合対象記号列を
指定入力記号列とし(ステップ104),抽出パターン
を指定パターンとして(ステップ105),固定位置照
合処理手段4を起動し(ステップ106),その照合結
果を出力する(ステップ107)。
明する。図6は固定位置照合処理手段4の構成例を示す
図,図7はその処理手順を示す図である。固定位置照合
処理手段4は,図6に示すように,個別処理選択部4
0,任意位置照合処理部41,ワイルドカード項処理部
42,サブパターン項処理部43,一般項処理部44,
選言項処理部45で構成される。なお,図7には個別処
理選択部40の処理手順(ステップ201から209)
を含んでいる。
処理部42,任意位置照合処理部41,サブパターン項
処理部43,一般項処理部44,選言項処理部45の処
理手順を示す図である。
ように,まず,個別処理選択部40により,指定パター
ンの先頭項を取り出して(ステップ201),先頭項の
種類に応じて各々の処理部を起動する(ステップ202
から209)。そして,各処理部の照合結果を本処理の
照合結果として(ステップ210),終了する。例え
ば,図4の指定パターンの場合,最初に「@販売元」が
取り出され,ワイルドカード項処理部42が起動され
る。
示すように,指定パターンの次の項以降を新たな指定パ
ターンとして(ステップ301),任意位置照合処理部
41を起動する(ステップ302)。その照合結果が一
致の場合には,指定入力記号列と任意位置照合処理部4
1から出力される照合開始位置から,ワイルドカード項
と一致する指定入力記号列中の部分記号列を決定し,そ
の結果を出力し(ステップ304),照合結果を「一
致」として終了する(ステップ306)。不一致の場合
には,照合結果を不一致として終了する(ステップ30
5)。
販売元」の次の項「(」以降を指定パターンとして任意
位置照合処理部41を起動する。図13に示すような被
照合対象記号列の場合には,一致という結果が得られ,
照合開始位置として「TTN」の次の「(」の位置が出
力される。その結果,「@販売元」には「TTN」が一
致しているとして出力される。照合結果を「一致」とし
て終了する。
ように,指定入力記号列の先頭を照合開始位置とし(ス
テップ401),照合開始位置からの記号列を固定位置
照合処理手段4への指定入力記号列として(ステップ4
02),固定位置照合処理手段4を起動する(ステップ
403)。そして,一致する箇所を見つける(ステップ
404)。一致箇所が見つかった場合には,照合結果を
「一致」とし,照合開始位置を出力する(ステップ40
5)。一致しなかったならば,照合開始位置を順次進め
ながら(ステップ408),同様に照合を繰り返す。最
後まで一致しなかった場合には,「不一致」とする(ス
テップ407)。上記の例では,「TTN」の次
の「(」の位置が照合開始位置のとき,一致する。
示すように,サブパターン名で参照接続されるサブパタ
ーンをサブパターン項と置き換えたパターンを指定パタ
ーンとして(ステップ501),固定位置照合処理手段
4を起動し(ステップ502),その結果を本処理の照
合結果とする(ステップ503)。
社長情報>は,サブパターン「<社長><@社長名>
氏」で置き換えられたものとして処理される。なお,
「氏」は,製品紹介表現(トップパターン)の「)」と
連糸接続されているものとして処理される。その結果,
図13に示す被照合対象記号列の入力記号列の場合,<
%社長情報>は,「社長小島仁氏」と一致し,<@社長
名>として「小島仁」が抽出される。
に,指定パターンの先頭項である一般項の記号列が指定
入力記号列の先頭からの部分列と一致するかを調べ(ス
テップ601),一致していない場合には,照合結果を
「不一致」(ステップ609)として終了する。一致し
ている場合には,「指定入力記号列において,一致した
部分記号列の後にまだ記号が存在するか?」(ステップ
602),および,「指定パターンにおいて,連糸接続
された項が存在するか?」(ステップ603および60
8)を調べ,ともに存在する場合には,ステップ604
へ進み,両方とも存在しない場合には,照合結果を「一
致」(ステップ610)として終了し,どちらか一方が
存在しない場合には,照合結果を「不一致」(ステップ
609)として終了する。
長名>氏)…」で,指定入力記号列が「社長小島仁氏
…」の場合,指定パターンの「<社長>」と指定入力記
号列の「社長」が一致する。この場合,次の項「<@社
長名>」および次の記号「小」が存在するので,ステッ
プ604へ進む。
た部分記号列の次の記号以降を指定入力記号列とし(ス
テップ604),連糸接続された次の項以降のパターン
を指定パターンとし(ステップ605),固定位置照合
処理手段4を起動する(ステップ606)。そして,固
定位置照合処理手段4の照合結果を本処理の照合結果と
して終了する(ステップ607)。上記の例の場合に
は,「小島仁氏…」を指定入力記号列,「<@社長名>
氏)…」を指定パターンとして,固定位置照合処理手段
4が起動される。
に,選言項を構成する各々のパターンを指定パターンと
して(ステップ701,ステップ705),固定位置照
合処理手段4を起動する(ステップ702)。これによ
って,選言接続されたパターンのうちいずれかと一致し
た場合,照合結果を「一致」とし(ステップ706),
いずれとも一致しない場合には照合結果を「不一致」と
して終了する(ステップ707)。例えば,指定パター
ン「(<販売>|<発売>)<%する>」で指定入力記
号列が「発売した。」の場合,2つのパターン「<販売
><%する>」と「<発売><%する>」を指定パター
ンとして固定位置照合処理手段4を起動し,後者のパタ
ーンが一致して終了する。
TN(社長小島仁氏)は四月一日、携帯用電話機「XY
Z」(五万円)を発売した。』の場合,@販売元=TT
N,@製品=携帯用電話機,@製品名=XYZ,等が抽
出される。
作例を示す。図14ないし図16において,ステップの
番号は,図7ないし図12に示す処理ステップの番号に
対応している。
よう構成した場合の実施例について説明する。図17
は,省略項の記述を許す抽出パターン記述の書式定義の
例,図18は,図17の書式定義に基づいて記述された
抽出パターンの記述例を示す図である。ここで,[]で
囲まれた項が省略項であり,この項は一致してもしなく
てもよいことを表している。
例であり,図6の構成に対し,省略項処理部46が付与
されている。図20は,省略項処理部46の処理手順を
示す図である。
40において,指定パターンの先頭項が省略項の場合に
は,省略項処理部46が起動される。省略項処理部46
において,省略項を構成するサブパターンを指定パター
ンとして(ステップ801),固定位置照合処理手段4
を起動する(ステップ802)。照合結果が一致なら
ば,照合結果を「一致」として終了する(ステップ80
7)。照合結果が不一致ならば,省略項に連糸接続され
たパターンを指定パターンとして(ステップ804),
固定位置照合処理手段4を起動し(ステップ805),
この照合結果を本処理の照合結果として終了する(ステ
ップ806)。例えば,パターン「<四月>[の]<一
日>[に][、]<@x><した>」というパターンの
場合,「四月一日、発売した」,「四月の一日、発売し
た」,「四月一日に発売した」など多様な入力記号列と
一致する。これにより,より多様な表現からの内容抽出
が可能となる。
について説明する。図21は,ワイルドカード名に対
し,サブパターンPを定義しておき,ワイルドカード項
と一致する部分記号列が決定されたときに,その部分記
号列に対し,サブパターンPで内容抽出を行うよう構成
したワイルドカード項処理部42の処理手順を示す図で
ある。
ップ301,302)と照合結果が不一致だった場合の
処理(ステップ305)は,図8と同じである。一致の
場合には,部分記号列Cが決定(ステップ304)され
た後,ワイルドカード名に対してサブパターンPが定義
されているならば,一致した部分文字列Cを指定入力記
号列とし(ステップ311),サブパターンPを指定パ
ターンとして(ステップ312),固定位置照合処理手
段4を起動する(ステップ313)。ステップ313の
結果にかかわらず,照合結果を一致として終了する(ス
テップ306)。
義されている場合,図23(A)に示す被照合対象記号
列Aが入力されると,@販売元=TTN,@会社情報=
「社長小島仁氏」,などが抽出され,さらに,「@会社
情報」はサブパターンが定義されており,「社長小島仁
氏」を指定入力文字列,「<社長><@社長名>氏」を
指定パターンとして固定位置照合処理手段4が起動され
る。その結果,@社長名=「小島仁」,が抽出される。
列Bが入力された場合には,@販売元=「TTN」,@
会社情報=「千代田区内幸町四丁目五番六号」,などが
抽出される。ただし,「@会社情報」のサブパターンと
は一致しない。
述した実施例の図3に示す抽出パターンを用いた場合に
は,「@会社情報」が「%会社情報」となっており,
「製品紹介表現」のパターン自体が不一致となる。それ
に対し,本実施例は,「@会社情報」の部分にはどのよ
うな情報が記述されても「製品紹介表現」のパターンは
一致し,「@販売元」などは抽出される。このように,
様々な情報が記述される可能性があり,その中で特定の
情報のみを抽出したい場合などに,本実施例は有効であ
る。
についての実施例について説明する。図24は,その構
成例を示す図であり,図1の構成に対し形態素解析処理
手段5が付加されている。入力文字列が形態素解析処理
手段5に入力されると,形態素解析処理手段5は単語辞
書6を参照しながら,入力文字列を単語(形態素)に分
割し,意味カテゴリや品詞等の情報も付与した単語単位
の記号列として出力する。
列を入力したときの形態素解析結果の例を示した図であ
る(品詞については省略している)。例えば,「TT
N」という単語で区切られ,意味カテゴリ「会社名」が
付与されている。「仁」や「XYZ」は単語辞書に登録
されてないため,未知語となっている。
り,半角文字M のついた文字列は意味カテゴリを表す。
この抽出パターンを用いて,図25に示す単語を被照合
対象記号列の記号として処理すると,図13と同様の抽
出結果が得られる。
まで述べた実施例と同様であるが,以下の点が異なる。 (1) 入力記号列は単語単位であり,表記,品詞,意味カ
テゴリ等の情報を持つ。
表記,品詞,意味カテゴリのいずれかである。 (3) 一般項処理部44における記号同士の比較におい
て,抽出パターン側の終端記号が持っている項目の情報
のみが一致すれば,指定入力記号列の記号と指定パター
ンの記号が一致したと判定する。
ターン「%売り」が固定位置照合処理手段4に入力され
た場合について説明する。単語「発売」には,意味カテ
ゴリ「売り」が付与されており,「%売り」のサブパタ
ーンの先頭項「 M売り」と一致する。次に表記「し」,
「た」が,サブパターン「%する」の選言項の2番目の
項「した」と一致する。
次の記号に進む場合に単語単位で進むため,例えば,
「TTN」の次には「(」が処理され,文字単位に比
べ,内容抽出の処理が速くなるという特徴がある。ま
た,意味カテゴリや品詞を抽出パターン中で使えるた
め,抽出パターンの記述が簡単になるという特徴があ
る。
ワイルドカードや選言,サブパターンなどを用いて複雑
な条件の抽出パターンを記述でき,それを用いて,未知
語を含む文章であっても,文章中から必要な情報を抽出
できるため,次のような効果が得られる。
して,データベースを自動作成することが可能となる。 テキストとその抽出結果とをリンクさせたデータ構造
を持たせることにより,従来に比べ,より柔軟な検索が
できるテキスト型データベースシステムを構築すること
ができる。
リの推定ができ,自然言語解析のための辞書の学習シス
テムを構築することができる。 抽出された情報を基に,主要な情報のみを残して文を
生成すれば,要約文の生成を行うことができる。
定義の例を示す図である。
示す図である。
図である。
である。
ートである。
ャートである。
トである。
ャートである。
ある。
ある。
記号列の例を示す図である。
抽出処理例の説明図である。
ーン記述の書式定義の例を示す図である。
パターンの記述例を示す図である。
定位置照合処理手段の構成例の図である。
である。
ルドカード項処理部のフローチャートである。
ンの例を示す図である。
記号列の例を示す図である。
の構成図である。
示す図である。
場合の抽出パターンの例を示す図である。
Claims (6)
- 【請求項1】 あらかじめ定義された抽出パターンに基
づいて,被照合対象記号列が前記抽出パターンと一致す
るか否かを判定し,一致した場合には前記被照合対象記
号列のどの部分が一致したかを出力する内容抽出装置に
おいて, 前記抽出パターンがトップパターンと複数のサブパター
ンとサブパターン名を介した参照接続とで定義され,前
記サブパターンおよび前記トップパターンが,任意の記
号列と一致することを表すワイルドカード項,サブパタ
ーン名で表されるサブパターン項,いくつかのサブパタ
ーンのうちの一つが一致したときに入力記号列に一致し
たとみなされる選言項または一般項の連糸接続で定義さ
れ,前記選言項がサブパターンの選言接続で定義され,
前記一般項が終端記号列で定義される記述に基づく抽出
パターンを入力する抽出パターン入力手段(1) と, 前記抽出パターンを内部構造に変換する抽出パターン解
析手段(2) と, 前記抽出パターンの一部または全部である指定パターン
と,被照合対象記号列の一部または全部である指定入力
記号列が入力されると,指定パターン中の項間の連糸接
続関係に基づいて,指定入力記号列が指定パターンと一
致するか否かを,ワイルドカード項,サブパターン名で
表されるサブパターン項,選言項および一般項を含む項
の種類に応じた照合により検出し,一致した場合には指
定入力記号列のどの部分が一致したかを示す情報を出力
する固定位置照合処理手段(4) と, 被照合対象記号列が入力されると,該被照合対象記号列
を前記固定位置照合処理手段(4) への指定入力記号列と
し,前記抽出パターン解析手段(2) で内部構造に変換さ
れた抽出パターンを前記固定位置照合処理手段(4) への
指定パターンとして,前記固定位置照合処理手段(4) を
起動する照合処理起動手段(3) とを備え,かつ,前記固定位置照合処理手段(4) は, 指定パターンの連糸接続された項の先頭項が,ワイルド
カード項,サブパターン項,一般項,選言項,のいずれ
であるかを判定し,各々の場合に応じて,後記のワイル
ドカード項処理部,サブパターン項処理部,一般項処理
部,選言項処理部を起動する個別処理選択部と, 指定パターンを固定したまま,指定入力記号列の任意位
置からの記号列を前記固定位置照合処理手段(4) への指
定入力記号列として変化させて,前記固定位置照合処理
手段(4) を繰り返し起動することによって,指定入力記
号列の任意位置からの記号列が指定されたパターンと一
致するか否かを判定し,一致した場合には,前記記号列
の照合開始位置を出力する任意位置照合処理部と 指定パ
ターンの先頭項であるワイルドカード項の次の項以降の
パターンを前記任意位置照合処理部への指定パターンと
し,指定入力記号列をそのまま前記任意位置照合処理部
への指定入力記号列として,前記任意位置照合処理部を
起動することによって,指定パターンと指定入力記号列
の一致を判定し,指定入力記号列と前記任意位置照合処
理部から出力される照合開始位置とから,ワイルドカー
ド項と一致する指定入力記号列中の部分記号列を決定す
るワイルドカード項処理部と, サブパターン名で参照接続されるサブパターンをサブパ
ターン項と置き換えた指定パターンを前記固定位置照合
処理手段(4) への指定パターンとして前記固定位置照合
処理手段(4) を起動するサブパターン項処理部と, 指定パターンの先頭項である一般項の記号列が指定入力
記号列の先頭からの部分記号列と一致するかを判定し,
一致した場合には,前記記号列と一致した部分記号列の
次の文字位置以降を前記固定位置照合処理手段(4) への
指定入力記号列として,前記一般項の連糸接続された次
の項以降のパターンを前記固定位置照合処理手段(4) へ
の指定パターンとして前記固定位置照合処理手段(4) を
起動することによって,指定パターンと指定入力記号列
の一致を判定する一般項処理部と, 選言項を構成する各々のパターンを前記固定位置照合処
理手段(4) への指定パターンとし,指定入力記号列をそ
のまま前記固定位置照合処理手段(4) への指定入力記号
列として前記固定位置照合処理手段(4) を起動すること
によって,選言接続されたパターンのうちいずれと一致
するかを判定して,指定パターンと指定入力記号列の一
致を判定する選言項処理部とを備えた ことを特徴とする
内容抽出装置。 - 【請求項2】 請求項1記載の内容抽出装置において, 前記抽出パターン入力手段(1) は,前記サブパターンお
よび前記トップパターンが,前記ワイルドカード項,前
記サブパターン項,前記選言項,前記一般項または省略
項の連糸接続で定義され,前記省略項がサブパターンで
定義される記述に基づく抽出パターンを入力するよう構
成され, 前記固定位置照合処理手段(4) は,前記省略項に対して
は,省略項を定義するサブパターンを含むパターンで照
合を行い,不一致の場合には,該サブパターンを含まな
いパターンで照合を行うよう構成されたことを特徴とす
る内容抽出装置。 - 【請求項3】 請求項2記載の内容抽出装置において, 前記固定位置照合処理手段(4) における前記個別処理選
択部は,指定パターンの先頭項が省略項の場合には,後
記省略項処理部を起動するように構成され, 前記固定位置照合処理手段(4) において,指定パターン
の先頭項が省略項であるパターンを当該固定位置照合処
理手段(4) への指定パターンとして,指定入力記号列を
そのまま当該固定位置照合処理手段(4) への指定入力記
号列として,当該固定位置照合処理手段(4) を起動し,
不一致だった場合には,前記省略項の次の項以降のパタ
ーンを当該固定位置照合処理手段(4) への指定パターン
として,指定入力記号列をそのまま当該固定位置照合処
理手段(4) への指定入力記号列として,当該固定位置照
合処理手段(4) を起動することにより,指定パターンと
指定入力記号列の一致を判定する省略項処理部を有する
ことを特徴とする内容抽出装置。 - 【請求項4】 請求項1,請求項2または請求項3記載
の内容抽出装置において, 前記抽出パターン解析手段(2) は,前記ワイルドカード
項にワイルドカード名を対応させるよう構成され, 前記ワイルドカード項処理部は,ワイルドカード名に対
応してサブパターンを定義し,ワイルドカード項と一致
する指定入力記号列中の部分記号列が決定された時に,
該部分記号列を指定入力記号列とし,ワイルドカード項
のワイルドカード名に対応するサブパターンを指定パタ
ーンとして,前記固定位置照合処理手段(4) を起動する
よう構成されたことを特徴とする内容抽出装置。 - 【請求項5】 請求項1ないし請求項4のいずれか記載
の内容抽出装置において, 被照合対象記号列の記号が単語であることを特徴とする
内容抽出装置。 - 【請求項6】 請求項5記載の内容抽出装置において, 前記単語が表記,品詞,意味カテゴリを含む複数の項目
の情報を持ち,抽出パターンの一般項に対応する終端記
号が表記,品詞,意味カテゴリのいずれか一つあるいは
複数の項目の情報を持ち, 前記一般項処理部における記号同士の比較において,抽
出パターン側の終端記号が持っている項目の情報のみが
一致すれば,指定入力記号列の記号と指定パターンの記
号が一致したと判定するよう構成されたことを特徴とす
る内容抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31670692A JP3207947B2 (ja) | 1992-11-26 | 1992-11-26 | 内容抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31670692A JP3207947B2 (ja) | 1992-11-26 | 1992-11-26 | 内容抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06162102A JPH06162102A (ja) | 1994-06-10 |
JP3207947B2 true JP3207947B2 (ja) | 2001-09-10 |
Family
ID=18079999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31670692A Expired - Lifetime JP3207947B2 (ja) | 1992-11-26 | 1992-11-26 | 内容抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3207947B2 (ja) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7778031B1 (en) | 2009-07-15 | 2010-08-17 | Teradyne, Inc. | Test slot cooling system for a storage device testing system |
US7848106B2 (en) | 2008-04-17 | 2010-12-07 | Teradyne, Inc. | Temperature control within disk drive testing systems |
US7890207B2 (en) | 2008-04-17 | 2011-02-15 | Teradyne, Inc. | Transferring storage devices within storage device testing systems |
US7904211B2 (en) | 2008-04-17 | 2011-03-08 | Teradyne, Inc. | Dependent temperature control within disk drive testing systems |
US7908029B2 (en) | 2008-06-03 | 2011-03-15 | Teradyne, Inc. | Processing storage devices |
US7911778B2 (en) | 2008-04-17 | 2011-03-22 | Teradyne, Inc. | Vibration isolation within disk drive testing systems |
US7929303B1 (en) | 2010-02-02 | 2011-04-19 | Teradyne, Inc. | Storage device testing system cooling |
US7932734B2 (en) | 2009-07-15 | 2011-04-26 | Teradyne, Inc. | Individually heating storage devices in a testing system |
US7940529B2 (en) | 2009-07-15 | 2011-05-10 | Teradyne, Inc. | Storage device temperature sensing |
US7945424B2 (en) | 2008-04-17 | 2011-05-17 | Teradyne, Inc. | Disk drive emulator and method of use thereof |
US7987018B2 (en) | 2008-04-17 | 2011-07-26 | Teradyne, Inc. | Transferring disk drives within disk drive testing systems |
US7996174B2 (en) | 2007-12-18 | 2011-08-09 | Teradyne, Inc. | Disk drive testing |
US8041449B2 (en) | 2008-04-17 | 2011-10-18 | Teradyne, Inc. | Bulk feeding disk drives to disk drive testing systems |
US8102173B2 (en) | 2008-04-17 | 2012-01-24 | Teradyne, Inc. | Thermal control system for test slot of test rack for disk drive testing system with thermoelectric device and a cooling conduit |
US8116079B2 (en) | 2009-07-15 | 2012-02-14 | Teradyne, Inc. | Storage device testing system cooling |
US8238099B2 (en) | 2008-04-17 | 2012-08-07 | Teradyne, Inc. | Enclosed operating area for disk drive testing systems |
US8405971B2 (en) | 2007-12-18 | 2013-03-26 | Teradyne, Inc. | Disk drive transport, clamping and testing |
US8482915B2 (en) | 2008-04-17 | 2013-07-09 | Teradyne, Inc. | Temperature control within disk drive testing systems |
US8547123B2 (en) | 2009-07-15 | 2013-10-01 | Teradyne, Inc. | Storage device testing system with a conductive heating assembly |
US8628239B2 (en) | 2009-07-15 | 2014-01-14 | Teradyne, Inc. | Storage device temperature sensing |
US10775408B2 (en) | 2018-08-20 | 2020-09-15 | Teradyne, Inc. | System for testing devices inside of carriers |
US10948534B2 (en) | 2017-08-28 | 2021-03-16 | Teradyne, Inc. | Automated test system employing robotics |
US10983145B2 (en) | 2018-04-24 | 2021-04-20 | Teradyne, Inc. | System for testing devices inside of carriers |
US11226390B2 (en) | 2017-08-28 | 2022-01-18 | Teradyne, Inc. | Calibration process for an automated test system |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3317767B2 (ja) * | 1993-11-30 | 2002-08-26 | 日本電信電話株式会社 | データベース自動作成装置 |
JPH0962794A (ja) * | 1995-08-24 | 1997-03-07 | Fujitsu Ltd | 文書認識装置 |
US6085186A (en) * | 1996-09-20 | 2000-07-04 | Netbot, Inc. | Method and system using information written in a wrapper description language to execute query on a network |
JP2001101162A (ja) * | 1999-09-27 | 2001-04-13 | Just Syst Corp | 文書処理装置、及び文書処理プログラムが記憶された記憶媒体 |
JP5013081B2 (ja) * | 2006-06-22 | 2012-08-29 | 日本電気株式会社 | 情報解析装置、情報解析方法、及び情報解析プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2885489B2 (ja) * | 1990-08-03 | 1999-04-26 | 日本電信電話株式会社 | 文書内容検索装置 |
-
1992
- 1992-11-26 JP JP31670692A patent/JP3207947B2/ja not_active Expired - Lifetime
Non-Patent Citations (1)
Title |
---|
高松、西田,「見出し情報を用いたテキスト解析と情報抽出」,情報処理学会論文誌,Vol.29,No.8,昭和63年8月15日,p.760−769 |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7996174B2 (en) | 2007-12-18 | 2011-08-09 | Teradyne, Inc. | Disk drive testing |
US8549912B2 (en) | 2007-12-18 | 2013-10-08 | Teradyne, Inc. | Disk drive transport, clamping and testing |
US8467180B2 (en) | 2007-12-18 | 2013-06-18 | Teradyne, Inc. | Disk drive transport, clamping and testing |
US8405971B2 (en) | 2007-12-18 | 2013-03-26 | Teradyne, Inc. | Disk drive transport, clamping and testing |
US8140182B2 (en) | 2008-04-17 | 2012-03-20 | Teradyne, Inc. | Bulk feeding disk drives to disk drive testing systems |
US8238099B2 (en) | 2008-04-17 | 2012-08-07 | Teradyne, Inc. | Enclosed operating area for disk drive testing systems |
US8712580B2 (en) | 2008-04-17 | 2014-04-29 | Teradyne, Inc. | Transferring storage devices within storage device testing systems |
US8160739B2 (en) | 2008-04-17 | 2012-04-17 | Teradyne, Inc. | Transferring storage devices within storage device testing systems |
US8655482B2 (en) | 2008-04-17 | 2014-02-18 | Teradyne, Inc. | Enclosed operating area for storage device testing systems |
US7848106B2 (en) | 2008-04-17 | 2010-12-07 | Teradyne, Inc. | Temperature control within disk drive testing systems |
US7945424B2 (en) | 2008-04-17 | 2011-05-17 | Teradyne, Inc. | Disk drive emulator and method of use thereof |
US7987018B2 (en) | 2008-04-17 | 2011-07-26 | Teradyne, Inc. | Transferring disk drives within disk drive testing systems |
US7904211B2 (en) | 2008-04-17 | 2011-03-08 | Teradyne, Inc. | Dependent temperature control within disk drive testing systems |
US8305751B2 (en) | 2008-04-17 | 2012-11-06 | Teradyne, Inc. | Vibration isolation within disk drive testing systems |
US8041449B2 (en) | 2008-04-17 | 2011-10-18 | Teradyne, Inc. | Bulk feeding disk drives to disk drive testing systems |
US7911778B2 (en) | 2008-04-17 | 2011-03-22 | Teradyne, Inc. | Vibration isolation within disk drive testing systems |
US8095234B2 (en) | 2008-04-17 | 2012-01-10 | Teradyne, Inc. | Transferring disk drives within disk drive testing systems |
US8102173B2 (en) | 2008-04-17 | 2012-01-24 | Teradyne, Inc. | Thermal control system for test slot of test rack for disk drive testing system with thermoelectric device and a cooling conduit |
US8482915B2 (en) | 2008-04-17 | 2013-07-09 | Teradyne, Inc. | Temperature control within disk drive testing systems |
US8117480B2 (en) | 2008-04-17 | 2012-02-14 | Teradyne, Inc. | Dependent temperature control within disk drive testing systems |
US7890207B2 (en) | 2008-04-17 | 2011-02-15 | Teradyne, Inc. | Transferring storage devices within storage device testing systems |
US8451608B2 (en) | 2008-04-17 | 2013-05-28 | Teradyne, Inc. | Temperature control within storage device testing systems |
US8086343B2 (en) | 2008-06-03 | 2011-12-27 | Teradyne, Inc. | Processing storage devices |
US7908029B2 (en) | 2008-06-03 | 2011-03-15 | Teradyne, Inc. | Processing storage devices |
US7995349B2 (en) | 2009-07-15 | 2011-08-09 | Teradyne, Inc. | Storage device temperature sensing |
US7940529B2 (en) | 2009-07-15 | 2011-05-10 | Teradyne, Inc. | Storage device temperature sensing |
US7778031B1 (en) | 2009-07-15 | 2010-08-17 | Teradyne, Inc. | Test slot cooling system for a storage device testing system |
US8466699B2 (en) | 2009-07-15 | 2013-06-18 | Teradyne, Inc. | Heating storage devices in a testing system |
US7920380B2 (en) | 2009-07-15 | 2011-04-05 | Teradyne, Inc. | Test slot cooling system for a storage device testing system |
US8116079B2 (en) | 2009-07-15 | 2012-02-14 | Teradyne, Inc. | Storage device testing system cooling |
US8547123B2 (en) | 2009-07-15 | 2013-10-01 | Teradyne, Inc. | Storage device testing system with a conductive heating assembly |
US8279603B2 (en) | 2009-07-15 | 2012-10-02 | Teradyne, Inc. | Test slot cooling system for a storage device testing system |
US8628239B2 (en) | 2009-07-15 | 2014-01-14 | Teradyne, Inc. | Storage device temperature sensing |
US7932734B2 (en) | 2009-07-15 | 2011-04-26 | Teradyne, Inc. | Individually heating storage devices in a testing system |
US8687356B2 (en) | 2010-02-02 | 2014-04-01 | Teradyne, Inc. | Storage device testing system cooling |
US7929303B1 (en) | 2010-02-02 | 2011-04-19 | Teradyne, Inc. | Storage device testing system cooling |
US10948534B2 (en) | 2017-08-28 | 2021-03-16 | Teradyne, Inc. | Automated test system employing robotics |
US11226390B2 (en) | 2017-08-28 | 2022-01-18 | Teradyne, Inc. | Calibration process for an automated test system |
US10983145B2 (en) | 2018-04-24 | 2021-04-20 | Teradyne, Inc. | System for testing devices inside of carriers |
US10775408B2 (en) | 2018-08-20 | 2020-09-15 | Teradyne, Inc. | System for testing devices inside of carriers |
Also Published As
Publication number | Publication date |
---|---|
JPH06162102A (ja) | 1994-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3207947B2 (ja) | 内容抽出装置 | |
US6782505B1 (en) | Method and system for generating structured data from semi-structured data sources | |
US7343371B2 (en) | Queries-and-responses processing method, queries-and-responses processing program, queries-and-responses processing program recording medium, and queries-and-responses processing apparatus | |
JP3691844B2 (ja) | 文書処理方法 | |
US5970449A (en) | Text normalization using a context-free grammar | |
US7567902B2 (en) | Generating speech recognition grammars from a large corpus of data | |
JPH0242572A (ja) | 共起関係辞書生成保守方法 | |
JPH08248971A (ja) | テキスト朗読読み上げ装置 | |
JPH09198395A (ja) | 文書検索装置 | |
KR100631086B1 (ko) | Xml을 이용한 텍스트 정규화 방법 및 장치 | |
JP3526063B2 (ja) | 音声認識装置 | |
JPH09185632A (ja) | 情報検索・編集方法及び装置 | |
JP3016040B2 (ja) | 自然言語処理システム | |
JPH05233730A (ja) | 関係情報抽出・表示装置 | |
JP3029403B2 (ja) | 文章データ音声変換システム | |
JPH06259423A (ja) | 要約自動作成方式 | |
JP3548372B2 (ja) | 文字認識装置 | |
JP2002366556A (ja) | 情報検索方法 | |
JP3317767B2 (ja) | データベース自動作成装置 | |
JP4086034B2 (ja) | 形態素解析システムと形態素解析プログラムおよび形態素解析方法 | |
JPS63101933A (ja) | ソフトウエア開発支援方式 | |
JP2000112970A (ja) | 情報検索装置 | |
JP3216725B2 (ja) | 文章構造解析装置 | |
JPH0668134A (ja) | 翻訳用例ベース利用翻訳方式 | |
JPH0612453A (ja) | 未知語抽出登録装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070706 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080706 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080706 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090706 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090706 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100706 Year of fee payment: 9 |