JP3898615B2 - 短縮語作成支援装置および短縮語作成支援プログラム - Google Patents

短縮語作成支援装置および短縮語作成支援プログラム Download PDF

Info

Publication number
JP3898615B2
JP3898615B2 JP2002284332A JP2002284332A JP3898615B2 JP 3898615 B2 JP3898615 B2 JP 3898615B2 JP 2002284332 A JP2002284332 A JP 2002284332A JP 2002284332 A JP2002284332 A JP 2002284332A JP 3898615 B2 JP3898615 B2 JP 3898615B2
Authority
JP
Japan
Prior art keywords
abbreviation
word
candidate
dictionary
creation support
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002284332A
Other languages
English (en)
Other versions
JP2004118741A (ja
Inventor
聡 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002284332A priority Critical patent/JP3898615B2/ja
Publication of JP2004118741A publication Critical patent/JP2004118741A/ja
Application granted granted Critical
Publication of JP3898615B2 publication Critical patent/JP3898615B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、電子カタログ辞書の作成に当り、上記の電子カタログ辞書に含まれる語句に関する短縮語の作成を支援するための短縮語作成支援装置および短縮語作成支援プログラムに関する。
【0002】
【従来の技術】
コンピュータネットワークを用いて製品の情報を提供するようにしたシステムとして、電子カタログシステムがある。そして、インターネット上で製品情報を電子的に提供するための電子カタログシステムを構築するための国際規格として、“ISO13548(Parts Library)”が制定されている。この“ISO13548”では電子カタログを、辞書とコンテンツで構成し、これらを統一したデータ構造を与えることで、製品情報の共有・再利用を目指している。
【0003】
“ISO13548”で定義している辞書では、概念階層としてツリー上に表現された製品分類と、その製品分類の属する技術属性(諸元項目)とが主要な構成要素となっている。そして製品分類や諸元項目を定義するための名称には、短縮名称が対応付けられる。
【0004】
短縮名称は、製品分類や諸元項目を定義するための名称の全てについて広くコンセンサスが得られているような語句が存在している訳では無いので、辞書の作成作業においてその作業者が適切な短縮名称を考えなければならなかった。
【0005】
なお、製品分類の短縮名称を生成する方法としては、特許文献1のものが知られている。
【0006】
また、一般的な文字データの短縮方法として、略語辞書を用いた変換し文字数制限内に収める方法(例えば特許文献2を参照)や、略語生成規則による生成手法(例えば特許文献3を参照)などが知られている。
【0007】
【特許文献1】
特開2001-311178号公報
【0008】
【特許文献2】
特開2002-7104号公報
【0009】
【特許文献3】
特開平11-25117号公報
【0010】
【発明が解決しようとする課題】
以上のように従来は、短縮名称の作成を辞書作成の作業者が行っていたため、そのために多くの工数を必要としていた。
【0011】
特許文献1の技術を用いれば、辞書作成の作業者の負担を軽減することが可能である。しかしながら、特許文献1の技術は、短縮名称の作成は製品分類における概念階層の情報に基づいているため、そのような情報を有しない諸元項目の短縮名称を生成することはできなかった。
【0012】
また、特許文献2の技術は、予め登録されている略称データヘの文字列置換による手法であるため、該当する略称データがない場合は、都度略称データを入力していくことが必要となり、電子カタログの辞書開発においては十分な効果をあげることが困難である。
【0013】
また、特許文献3の技術は、文字列の分割、文字切り出し規則および切り出した文字の結合により略語を生成する手法であるが、個人が文章を効率的に検索するための手法であり、文字切り出し規則の表現力に柔軟性が不足している。このため、不特定多数が使用する標準的な短縮名称として、元の名称の意味を想像できるような短縮名称を生成することが困難であるため、電子カタログの辞書としての短縮名称の作成には適さない手法である。
【0014】
そこで本発明はこのような事情を考慮してなされたものであり、その目的とするところは、辞書の情報として不特定多数が使用するのに適し、広くコンセンサスを得ることが可能な短縮語を容易に作成することを可能とすることにある。
【0015】
【課題を解決するための手段】
以上の目的を達成するために本発明は、電子カタログ辞書に製品分類やその製品分類の属する技術属性を定義するための名称を表すために含まれる語句に関する短縮語の作成を支援する短縮語作成支援装置において、前記語句に関してそれぞれ異なる方法で前記短縮語としての候補文字列を生成する複数の候補生成手段と、前記語句を含んだ辞書要素の書式を規定するために前記電子カタログ辞書に示された情報と前記語句に関する短縮語が前記電子カタログ辞書に含まれるか否かを表す情報とに対応付けて予め定められた少なくとも1つの候補生成手段を前記複数の候補生成手段のうちから選択する選択手段と、この選択手段により選択された前記候補生成手段により生成された候補文字列を前記短縮語の候補として選定する候補選定手段とを備えた。
また前記の目的を達成するために別の本発明は、電子カタログ辞書に製品分類やその製品分類の属する技術属性を定義するための名称を表すために含まれる語句に関する短縮語の作成を支援するための処理をコンピュータに行わせる短縮語作成支援プログラムを、前記コンピュータを、前記語句に関してそれぞれ異なる方法で前記短縮語としての候補文字列を生成する複数の候補生成手段と、前記語句を含んだ辞書要素の書式を規定するために前記電子カタログ辞書に示された情報と前記語句に関する短縮語が前記電子カタログ辞書に含まれるか否かを表す情報とに対応付けて予め定められた少なくとも1つの候補生成手段を前記複数の候補生成手段のうちのから選択する選択手段と、この選択手段により選択された前記候補生成手段により生成された候補文字列の全てを前記短縮語の候補として選定する候補選定手段としてそれぞれ機能させるように構成した。
【0016】
このような手段を講じたことにより、それぞれ異なる方法で前記短縮語としての候補文字列を生成する複数の候補生成手段のうちの少なくとも1つが、短縮語作成の対象となる語句に関して前記電子カタログ辞書に示された情報と予め定められたルールとに基づいて有効とされ、その有効とされた候補生成手段により生成された候補文字列が短縮語の候補として選定される。従って、複数の方法が適宜使用されて短縮語の候補文字列の生成が行われる。
【0017】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態につき説明する。
【0018】
図1は本実施形態に係る電子カタログ辞書作成装置のブロック図である。なおこの電子カタログ辞書作成装置は、ISO13548標準の辞書データの定義において、ISO13548標準の要件である短縮名称(SHORTNAME)の作成を支援するものであり。
【0019】
この図1に示すように電子カタログ辞書作成装置は、プロセッサ1、メインメモリ2、ハードディスク装置3、CD−ROMドライブ4、キーボード/マウス5およびディスプレイ6を有している。そしてこれらの各部は、バス7を介して互いに接続されている。
【0020】
プロセッサ1は、ハードディスク装置3に格納されているプログラムに従ってソフトウェア処理を実行することで各種の制御処理を行う。
【0021】
メインメモリ2は、プロセッサ1が実際に使用するソフトウェアやその他のデータを一時的に記憶しておく。
【0022】
ハードディスク装置3は、プロセッサ1が使用するオペレーティングシステム用のプログラムを格納する。ハードディスク装置3は、オペレーティングシステム用のプログラムの他に、アプリケーションプログラムやドライバプログラム、あるいはその他の任意のデータを格納する。またハードディスク装置3には、短縮名称作成支援プログラム3aが格納される。短縮名称作成支援プログラム3aは、電子カタログ辞書に登録するための短縮名称の作成支援のための後述する処理をプロセッサ1に実行させる。
【0023】
CD−ROMドライブ4は、CD−ROMメディアMからのデータの読み出しを行う。
【0024】
キーボード/マウス5は、ユーザによる各種の指示入力を受け付ける。
【0025】
ディスプレイ6は、ユーザに対する各種の情報通知のための画像表示を行う。
【0026】
ところで電子カタログ辞書作成装置としては、例えば汎用のパーソナルコンピュータが用いられる。従って、当初は短縮名称作成支援プログラム3aはインストールされていない。そこで、当該情報処理システムの導入作業の一環として、CD−ROMメディアMに格納されている短縮名称作成支援プログラム3aをハードディスク装置3へとインストールする。
【0027】
ここで短縮名称作成支援プログラム3aは、プロセッサ1を図2に示すような各処理部として動作させる。
【0028】
図2はプロセッサ1が短縮名称作成支援プログラム3aに基づいて実現する処理部の関係を示すブロック図である。なお図2には併せて、各処理部が参照するためにメインメモリ2およびハードディスク装置3に格納される各種のデータも示している。
【0029】
この図2に示すようにプロセッサ1は、辞書データ読込み部11、短縮名称生成パタン判定部12、生成処理制御部13、基本略語置換処理部14、略称生成処理部15、他定義選択処理部16および短縮名称登録部17のそれぞれとして動作する。また辞書データ21、生成パタン判定ルール22、制約条件設定データ23、略称候補生成条件データ24、基本略語データ25、形態素解析用辞書26、略称生成ルール設定データ27および略称候補リスト28がそれぞれ用意される。
【0030】
辞書データ読込み部11は、辞書データ21から短縮名称の作成の対象となる辞書要素を読み込む。
【0031】
短縮名称生成パタン判定部12は、上記読み込まれた辞書要素に含まれる情報と生成パタン判定ルール22とに基づいて実行すべき処理内容のリストを決定する。なお、ここで決定する処理内容リストは、基本略語置換処理部14、略称生成処理部15および他定義選択処理部16のうちで略称候補の生成のために使用するべきものを示す。
【0032】
生成処理制御部13は、基本略語置換処理部14、略称生成処理部15および他定義選択処理部16のうちで上記処理内容リストに示された処理部に略称候補の作成処理を実行させる。生成処理制御部13は、制約条件設定データ23に示された条件に合致する略称候補を作成するべく基本略語置換処理部14、略称生成処理部15および他定義選択処理部16を制御する。
【0033】
基本略語置換処理部14は、略称の元となる文字列を略称候補生成条件データ24に示された条件下で基本略語データ25により置換することにより略称候補を生成する。基本略語置換処理部14は、生成した略称候補を略称候補リスト28に追加する。
【0034】
略称生成処理部15は、略称の元となる文字列の構文を形態素解析用辞書26を参照して解析し、この解析結果と略称生成ルール設定データに示されたルールとに基づいて略称候補を生成する。略称生成処理部15は、生成した略称候補を略称候補リスト28に追加する。
【0035】
他定義選択処理部16は、略称の元となる文字列とは異なる言語で同一の対象を示した語句に対して定められた略称を略称候補として選択する。他定義選択処理部16は、生成した略称候補を略称候補リスト28に追加する。
【0036】
短縮名称登録部17は、略称候補リスト28に記憶されている略称候補のうちから略称を確定し、これを辞書データ21に登録する。
【0037】
次に以上のように構成された電子カタログ辞書作成装置の動作につき説明する。
図3は本実施形態におけるプロセッサ1による全体の処理アルゴリズムを示すフローチャートである。
プロセッサ1はまず辞書データ読込み部11の機能としてステップST1-1において、辞書データ21から短縮名称の作成の対象となる辞書要素Eを読み込む。
【0038】
図4は辞書データ21のデータ構造を示す図である。
本実施形態では辞書データ21は表形式データとして表現しており、1つの辞書要素を1つの行として表現されている。辞書要素は、CODEフィールド21a、PREFNAME.ENフィールド21b、PREFNAME.JAフィールド21c、SHORTNAME.ENフィールド21d、SHORTNAME.JAフィールド21eおよびData Typeフィールド21fの各フィールドを含んでいる。なお、辞書要素の各フィールドはISO13548で規定された要件から構成されるが、図4では本発明の説明のために必要な部分を抜粋して示している。CODEフィールド21aには、辞書要素の識別子であるCODEが示される。PREFNAME.ENフィールド21bには、英語の名称を記述するPREFNAME.ENが示される。PREFNAME.JAフィールド21cには、日本語の名称を記述するPREFNAME.JAが示される。SHORTNAME.ENフィールド21dには、英語の略称を記述するSHORTNAME.ENが示される。SHORTNAME.JAフィールド21eには、日本語の略称を記述するSHORTNAME.JAが示される。Data Typeフィールド21fには、辞書要素の書式を規定するData Typeが示される。
【0039】
例えば図4における行R1では、CODEが「EEE001」である辞書要素のPREFNAME.ENが「Maximum Operational Rated Voltage」であり、PREFNAME.ENが「最大定格使用電圧」であることを示す。またSHORTNAME.ENおよびSHORTNAME.JAがいずれも未登録であることを示す。さらにData Typeが「Real」すなわち実数型であることを示す。
【0040】
続いてプロセッサ1は短縮名称生成パタン判定部12の機能としてステップST1-2において、上記辞書要素Eに含まれる情報と生成パタン判定ルール22とに基づいて短縮名称生成パタンを判定し、さらに実行すべき処理内容のリストを決定する。
【0041】
図5は生成パタン判定ルール22のデータ構造を示す図である。
生成パタン判定ルール22は、判定条件フィールド22aおよび生成処理フィールド22bより構成されている。判定条件フィールド22aには、生成の処理となる辞書要素に関する判定条件が記述されている。ここでは判定条件は、処理対象となる辞書要素のSHORTNAME.ENフィールド21dのデータの有無、SHORTNAME.JAフィールド21eのデータの有無、ならびにData Typeフィールド21fの値により構成されている。生成処理フィールド22bには、各判定条件に合致する辞書要素に関して適用する処理の内容を示している。
【0042】
例えば図5における行R2では、
(SHORTNAME.JA=なし)∧(SHORTNAME.EN=なし)∧(DataType=(Real∨Integer))
なる条件が成立する辞書要素の処理に関しては、SHORTNAME.ENの生成には略語置換処理(PreferredName.EN)および略称生成処理(PreferredName.EN)を適用し、またSHORTNAME.JAの生成には他定義選択処理(SHORTNAME.EN)を適用するというルールが記述されている。
【0043】
こののちにプロセッサ1は生成処理制御部13の機能として、ステップST1-4にて第1ループ処理を開始する。第1ループ処理を開始するとプロセッサ1はステップST1-5において、上記リストアップされた処理内容に応じて、制約条件設定データ23から制約条件を読み込み、処理内容を判定する。
【0044】
図6は制約条件設定データ23のデータ構造を示す図である。制約条件設定データは、生成対象フィールド23a、最大文字列長フィールド23bおよび使用可能文字フィールド23cを含んでいる。生成対象フィールド23aは、生成の対象となるフィールドを示す。最大文字列長フィールド23bは、生成する短縮名称の最大文字列の長さを示す。使用可能文字フィールド23cは、使用可能な文字の種類を示す。使用可能文字フィールド23cには、予め複数の文字種類に関するフラグが用意されていて、該当するフラグが「Y」である文字種類が使用可能であることを示す。なお本実施形態では、制約としてIEC61360に規定されている制約条件が記述されている。
【0045】
こののちにプロセッサ1はステップST1-6において、略語置換処理が上記リストアップされた処理内容に含まれているか否かを確認し、もし含まれているならばステップST1-7において基本略語置換処理を実行する。
【0046】
図7は基本略語置換処理における処理アルゴリズムを示すフローチャートである。なおこの基本略語置換処理は、プロセッサ1が基本略語置換処理部14の機能として実行する。
【0047】
基本略語置換処理においてプロセッサ1はまずステップST2-1において、処理対象となっている辞書要素Eから当該処理内容に含まれる処理対象に記述されたフィールドに相当する文字列Xを読込む。
【0048】
次にプロセッサ1はステップST2-2において、略称候補生成条件データ24を読込む。次にプロセッサ1はステップST2-3において、上記読込んだ略称候補生成条件データ24に基づいて文字列Xの部分文字列のうちで基本略語データ25に記述されている単語と一致するものを検索する。
【0049】
図8は略称候補生成条件データ24のデータ構造を示す図である。本実施形態では略称候補生成条件データ24は、マッチング方法フィールド24aおよび仕切り文字フィールド24bとを含む。マッチング方法フィールド24aには、文字列Xと基本略語データ25に格納された単語とのマッチング方法の指定情報が示される。具体的には、使用可能なマッチング方法の一覧と、それらのマッチング方法の使用の可否を示すフラグとが用意されていて、フラグが「Y」とされているマッチング方法が使用するべきものとなる。図8の例では、「左最長一致」なるマッチング方法が使用するべきマッチング方法として指定されていることを示す。そこでステップST2-3においてはプロセッサ1は、このように指定されているマッチング方法にて検索を行う。
【0050】
図9は基本略語データ25のデータ構造を示す図である。基本略語データ25は、単語フィールド25aと略語フィールド25bとを含んでいる。単語フィールド25aは、検索のための見出しとなる単語を示す。略語フィールド25bは、対応する単語フィールド25aに示された単語に対応する略語を示す。なお、基本略語データ25としては、既存の規格等を利用すればよく、技術属性の文字シンボルの規格であるIEC60027、IEC60747、IEC60748等を略語のフィールドに格納してもよく、これにより基本略語データ25を広くコンセンサスを得られるものとすることができる。
【0051】
そしてプロセッサ1はステップST2-4において、一致する単語が見つかったか否かを確認する。
【0052】
もし、一致する単語が見つかった場合にプロセッサ1はステップST2-5において、文字列Xから検索された部分文字列を、それに一致した単語に対する略語に略称候補生成条件データ24で指定された仕切り文字を加えたもので置換した文字列で置換してなる文字列X’を生成する。
【0053】
図8に示すように略称候補生成条件データ24には、使用可能な仕切り文字の一覧と、それらの仕切り文字の使用の可否を示すフラグとが用意されていて、フラグが「Y」とされている仕切り文字が使用するべきものとなる。図8の例では、「−」なる文字が仕切り文字として指定されていることを示す。
【0054】
続いてプロセッサ1はステップST2-6において、上記の文字列X’が制約条件設定データ23た示す制約を満たしているか否かを確認する。そして制約を満たしていることを確認した場合にプロセッサ1はステップST2-7において、文字列X’を略称候補リスト28に加える。このように略称候補を略称候補リスト28に加えた場合、あるいは制約を満たしていないことをステップST2-6にて確認した場合にプロセッサ1は、ステップST2-8において文字列X’を文字列Xとし、この上でステップST2-3以降の処理を繰り返す。
【0055】
さて、一致する単語が見つからなかったことをステップST2-4にて確認した場合にはプロセッサ1はステップST2-9において、文字列Xが制約条件設定データ23が示す制約を満たしているか否かを確認する。そして制約を満たしていることを確認した場合にプロセッサ1はステップST2-10において、文字列Xを略称候補として略称候補リスト28に加える。このように略称候補を略称候補リスト28に加えた場合、あるいは制約を満たしていないことをステップST2-9にて確認した場合にプロセッサ1は基本略語置換処理を終了する。
【0056】
このように基本略語置換処理を終了したならばプロセッサ1は、図3におけるステップST1-8において、ステップST1-3にてリストアップされた処理内容に略称生成処理が含まれているか否かを確認する。なお、リストアップされた処理内容に略語置換処理が含まれていないことをステップST1-6にて確認した場合にプロセッサ1は、ステップST1-7における基本略語置換処理を行うことなしに上記ステップST1-8における確認を行う。そして、略称生成処理が含まれていることを確認したならばプロセッサ1はステップST1-9において、略称生成処理を実行する。
【0057】
図10は略称生成処理における処理アルゴリズムを示すフローチャートである。なおこの略称生成処理は、プロセッサ1が略称生成処理部15の機能として実行する。
【0058】
プロセッサ1はまずステップST3-1において、ユーザからの入力に応じて略称生成ルールを設定し、略称生成ルール設定データ27として格納する。
【0059】
図11は略称生成ルール設定データ27のデータ構造を示す図である。略称生成ルール設定データ27は、単語の省略方法の設定情報27aおよび文字連結を行う際の仕切り文字の設定情報27bで構成されている。
【0060】
省略方法は、主語を対象とする場合と修飾語を対象とする場合とで別々の設定が可能となっており、それぞれに関して適用可能な処理方法の一覧と、それらの処理方法の使用の可否を示すフラグとが用意されていて、フラグが「Y」とされている処理方法が使用するべきものとなる。
【0061】
なお本実施形態では、以下の4つ省略方法を具備している。
【0062】
▲1▼各形態素の先頭からn文字までを抽出。
【0063】
▲2▼各形態素の先頭からn文字に末尾の文字を連結したものを抽出。
【0064】
▲3▼各形態素の母音(先頭は除く)を省略したものを抽出。
【0065】
▲4▼形態素全体を抽出(=無処理)。
【0066】
また仕切り文字は、修飾語−主語間の場合と修飾語間の場合とで別々の設定が可能となっており、それぞれに関して適用可能な仕切り文字の一覧と、それらの仕切り文字の使用の可否を示すフラグとが用意されていて、フラグが「Y」とされている仕切り文字が使用するべきものとなる。
【0067】
そこでプロセッサ1はステップST3-1では、いずれの省略方法および仕切り文字を使用するかのユーザ指定を受け付けて、該当するフラグを「Y」とするのである。なお省略方法に関しては、複数の処理を指定することを許容する。例えば、主語にあたる形態素に関しては▲1▼と▲4▼の処理を選択し、かつ修飾語にあたる形態素に関しては▲2▼と▲3▼の処理を選択することができる。また、仕切り文字についても、主語−修飾語間と修飾語間とで仕切り文字をそれぞれユーザが指定することができる。これらにより、より柔軟な略語生成を可能とすることができる。
【0068】
次にプロセッサ1はステップST3-2において、辞書要素Eから当該処理内容に含まれる処理対象に記述されたフィールドに相当する文字列Yを読込む。そしてプロセッサ1はステップST3-3において、形態素解析用辞書26に基づき文字列Yの構文解析を行い、形態素毎に分割した文字列リストL1を生成する。形態素解析については単語の切り出しと単語間の関係解析を行い、文の中の主語にあたる名詞と当該名詞を修飾する修飾語の集合に分けることができれば、既存の構文解析の技術を用いることで実現が可能である。
【0069】
図12は形態素解析用辞書26のデータ構造を示す図である。形態素解析用辞書は単語を記述した文字列のフィールド26a、単語の品詞のフィールド26b、ならびに意味素性のフィールド26cで構成されている。
【0070】
続いてプロセッサ1はステップST3-4にて第1ループ処理を開始する。第1ループ処理を開始するとプロセッサ1はステップST3-5において、上記の文字列リストL1の各要素E1について、略称生成ルール設定データ27により示された略称生成ルールを実行してE1の略称の集合(E2,E3,…En)を生成する。そしてプロセッサ1は、上記の集合(E2,E3,…En)にE1を加えた集合(E1,E2,E3,…En)を要素とするリストL2を生成する。こののち、プロセッサ1はステップST3-6において、文字リストL1の全ての要素についてリストL2の生成が終了したか否かの確認を行い、ここで終了を確認できるまでステップST3-4乃至ステップST3-7の第1ループを繰り返し実行する。
【0071】
全てのリストL2の生成が終了したことをステップST3-6にて確認したならば、プロセッサ1はステップST3-8において、リストL2の要素、すなわち各形態素と生成された1つ以上の略称のリスト同士の可能な組み合わせを要素とする集合uを生成する。
【0072】
次にプロセッサ1はステップST3-9にて第2ループ処理を開始する。第2ループ処理を開始するとプロセッサ1はステップST3-10において、集合uの各要素について、略称生成ルール設定データ27で指定された仕切り文字を介した連結文字列Y’を生成する。さらにプロセッサ1はステップST3-11において、連結文字Y’について制約条件設定データ23の制約を満たしているか否かを確認し、制約を満たしているならば連結文字Y’を略称候補として略称候補リスト28に加える。このように略称候補を略称候補リスト28に加えた場合、あるいは制約を満たしていないことをステップST3-11にて確認した場合にプロセッサ1はステップST3-13において、集合Uの全ての要素についての連結文字列Y’の生成が終了したか否かの確認を行い、ここで終了を確認できるまでステップST3-9乃至ステップST3-14の第2ループを繰り返し実行する。
【0073】
そして集合Uの全ての要素についての連結文字列Y’の生成が終了したことをステップST3-13にて確認したならば、プロセッサ1は略称生成処理を終了する。
【0074】
このように略称生成処理を終了したならばプロセッサ1は、図3におけるステップST1-10において、ステップST1-3にてリストアップされた処理内容に他定義選択処理が含まれているか否かを確認する。なお、リストアップされた処理内容に略称生成処理が含まれていないことをステップST1-8にて確認した場合にプロセッサ1は、ステップST1-9における略称生成処理を行うことなしに上記ステップST1-10における確認を行う。そして、他定義選択処理が含まれていることを確認したならばプロセッサ1はステップST1-11において、他定義選択処理を実行する。
【0075】
図13は他定義選択処理における処理アルゴリズムを示すフローチャートである。なおこの他定義選択処理は、プロセッサ1が他定義選択処理部16の機能として実行する。
【0076】
プロセッサ1はまずステップST4-1において、辞書要素Eから当該処理内容に含まれる処理対象に記述されたフィールドに相当する文字列Sを読込む。次にプロセッサ1はステップST4-2において、上記の文字列Sについて制約条件設定データ23の制約を満たしているか否かを確認し、制約を満たしている場合は文字列Sを略称候補として略称候補リスト28に加える。これにより、例えば日本語の短縮名称として英語の短縮名称を候補に加えるなどのように、ある言語に関して定められた短縮名称を他の言語の短縮名称の候補とすることが可能になる。
【0077】
このように略称候補を略称候補リスト28に加えた場合、あるいは制約を満たしていないことをステップST4-2にて確認した場合にプロセッサ1は、他定義選択処理を終了する。
【0078】
このように他定義選択処理を終了したならばプロセッサ1は、図3におけるステップST1-12において、短縮名称登録処理を実行する。なお、リストアップされた処理内容に他定義選択処理が含まれていないことをステップST1-10にて確認した場合にプロセッサ1は、ステップST1-11における他定義選択処理を行うことなしに上記ステップST1-12に移行し、短縮名称登録処理を実行する。
【0079】
図14は短縮名称登録処理の処理アルゴリズムを示すフローチャートである。なおこの短縮名称登録処理は、プロセッサ1が短縮名称登録部17の機能として実行する。
【0080】
プロセッサ1はまずステップST5-1において、略称候補リスト28を読込む。続いてプロセッサ1はステップST5-2において、略称候補リスト28の表示形態の設定がユーザにより入力されるのを受け付ける。ここで入力を受け付ける設定は、例えば表示順や最大表示数などである。表示順は、アルファベット順、アイウエオ順、あるいは文字列長順などが想定される。また、最大表示数は、候補数が多い場合の表示数の上限である。
【0081】
次にプロセッサ1はステップST5-3において、上記の入力された設定に応じた表示形態で略称候補リスト28の情報を表示する。この上でプロセッサ1はステップST5-4において、表示されたリストの中から略称を選択するか否かのユーザに指定を受け付け、表示されたリストからの選択が指定されたならばステップST5-5において、ユーザ指定に基づいて略称候補リストから略称を1つ選択する。
【0082】
しかし、表示されたリストからの選択がユーザにより拒否されたならば、プロセッサ1はステップST5-6において、略称を手入力するか否かのユーザ指示を受け付け、手入力が指定されたならばステップST5-7において、ユーザによる略称の入力を受け付ける。
【0083】
このようにユーザによる略称の入力を受け付けた後、あるいはステップST5-5にてリストからの略称の指定を受け付けた後にプロセッサ1はステップST5-8において、上記指定された略称を短縮名称として確定し、この短縮名称を生成の対象として指定されていた辞書要素Eの該当出力先に書き込む。そしてプロセッサ1は、これをもって短縮名称登録処理を終了する。
【0084】
なお、ステップST5-6にて手入力がユーザにより拒否された場合には、プロセッサ1は所定をステップST5-2に戻し、表示形態の再設定を受け付けた上で以降の処理を繰り返す。
【0085】
こののち、プロセッサ1はステップST1-13において、ステップST1-3にて生成した処理内容リストの要素のすべてに関する処理が終了したか否かの確認を行い、ここで終了を確認できるまでステップST1-4乃至ステップST1-14の第1ループを繰り返し実行する。
全ての要素に関する処理が終了したことをステップST1-13にて確認したならば、プロセッサ1はこの図3の処理を終了する。
【0086】
以下、具体例を挙げて、上記の処理により略称登録がなされる様子について説明する。
ここでは、図4における行R1の要素を処理対象とする場合を考える。この処理対象となる要素は、SHORTNAME.ENおよびSHORTNAME.JPがいずれも未設定であり、かつData Typeが「Real」であるから、図5における生成パタン判定ルール22では行R2が判定条件に合致することとなる。そこでこの要素に対しては、SHORTNAME.ENに関しては略語置換処理(PreferredName.EN)および略称生成処理(PreferredName.EN)が、またSHORTNAME.JAに関しては他定義選択処理(SHORTNAME.EN)がそれぞれ適用されることになる。また略語置換処理(PreferredName.EN)および略称生成処理(PreferredName.EN)に用いられる原データは、「Maximum Operational Rated Voltage」となる。
【0087】
図15は略語置換処理により略称候補が生成される様子を示す図である。
図15に示すように、文字列「Maximum Operational Rated Voltage」が部分的に徐々に基本略語により置換されて行き、ここでは「Max-Op-V_r」なる文字列が略称候補として略称候補リスト28に追加される。
【0088】
図16は略称生成処理により略称候補が生成される様子を示す図である。
図16に示すように、文字リストL1、リストL2および集合Uがそれぞれ生成され、これらから、「Man-Opl-Rated Vol」や「Man-Opl-Ratd Vol」などの5つの文字列が新たに略称候補として生成され、略称候補リスト28に追加される。
【0089】
図17は略称候補リスト28からSHORTNAME.ENが決定される様子を示す図である。
略語置換処理および略称生成処理により生成された図17(a)に示すような合計6つの略称候補のうちから、ユーザ指定により図17(b)に示すように「Max-Op-V_r」なる候補がSHORTNAME.ENとして確定される。
【0090】
図18は他定義選択処理の様子を示す図である。
図18(a)に示すように、SHORTNAME.JAに関する他定義選択処理は、SHORTNAME.ENをそのまま略称候補として略称候補リスト28に加えることが定義されている。そこで図18(b)に示すように、上述のようにSHORTNAME.ENとして確定された「Max-Op-V_r」なる語句を略称候補として略称候補リスト28に加える。そして、ユーザによる選択を経て、図18(c)に示すように「Max-Op-V_r」なる候補がSHORTNAME.JAとして確定される。
【0091】
このようにして確定されたSHORTNAME.ENおよびSHORTNAME.JAがそれぞれ図19に示すように辞書データ21に追加され、辞書データ21が更新される。
【0092】
以上のように本実施形態によれば、それぞれ異なる方法で略称候補の生成を行う基本略語置換処理部14、略称生成処理部15および他定義選択処理部16を備えて、作成するべき短縮名称がSHORTNAME.ENおよびSHORTNAME.JAのいずれであるか、ならびに短縮名称の作成の元となる名称のデータタイプに基づいて適切な処理部を選択し、この処理部により略称候補の生成を行うようにしているので、電子カタログの辞書として不特定多数が使用するのに適し、広くコンセンサスをとることが容易な標準的な短縮名称の候補を提供することが可能となる。
【0093】
さらに本実施形態によれば、略称候補のうちからユーザにより指定されたものを短縮名称として確定するようにしているから、作成された短縮名称を例えば本実施形態のように辞書データ21の更新処理などに容易に使用することが可能である。そして本実施形態のように辞書データ21の更新処理を自動的に行うことにより、辞書データ21の作成処理を非常に効率良く行うことを可能とすることができる。
【0094】
また本実施形態によれば、他定義選択処理部16を備えていることにより、ある言語に関して他の言語に基づく短縮名称を採用することが可能であり、多言語化されている辞書データ21に対応して適正な短縮名称の作成を行うことが可能である。
【0095】
なお、本発明は上記実施形態に限定されるものではない。例えば略称生成処理部15で使用する形態素解析としては、日本語の短縮名称を生成する場合で形態素の正確な分析が困難である場合に対応する英語の定義からの単語切り出し情報を利用することで、より正確な形態素分析を行うことなどの他言語情報を利用する新たな形態素解析技術を用いることもできる。
【0096】
また、基本略語置換処理部14、略称生成処理部15および他定義選択処理部16の全てを必ずしも備える必要は無いし、これらの処理部とは異なる方法で略称候補を生成する処理部を備えるようにしても良い。
【0097】
また、短縮名称の確定は、例えば略称候補の中で文字数が最も少ないものとするなどのように、予め定めた条件に従って自動的に行うようにしても良い。
【0098】
また、文字列のコード化や、ソフトウェア開発における関数名の生成などのように電子カタログにおける短縮名称以外の短縮語の作成にも広く適用が可能である。
【0099】
また、短縮名称作成支援プログラム3aは、CD−ROMメディアMからインストールするには限らず、フロッピディスク(R)や、その他の種類の記憶媒体からインストールするようにしても良いし、あるいはインターネットなどのネットワークを介してインストールするようにしても良い。
【0100】
このほか、本発明の要旨を逸脱しない範囲で種々の変形実施が可能である。
【0101】
【発明の効果】
本発明によれば、電子カタログ辞書に製品分類やその製品分類の属する技術属性を定義するための名称を表すために含まれる語句に関する短縮語の作成を支援する短縮語作成支援装置に、前記語句に関してそれぞれ異なる方法で前記短縮語としての候補文字列を生成する複数の候補生成手段と、前記語句を含んだ辞書要素の書式を規定するために前記電子カタログ辞書に示された情報と前記語句に関する短縮語が前記電子カタログ辞書に含まれるか否かを表す情報とに対応付けて予め定められた少なくとも1つの候補生成手段を前記複数の候補生成手段のうちから選択する選択手段と、この選択手段により選択された前記候補生成手段により生成された候補文字列を前記短縮語の候補として選定する候補選定手段とを備えるようにしたので、複数の方法が適宜使用されて短縮語の候補文字列の生成が行われることとなり、辞書の情報として不特定多数が使用するのに適し、広くコンセンサスを得ることが可能な短縮語を容易に作成することを可能とすることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る電子カタログ辞書作成装置のブロック図。
【図2】図1中の短縮名称作成支援プログラム3aに基づきソフトウェア処理によりプロセッサ1により実現される処理系統の構成を示すブロック図。
【図3】図1中のプロセッサ1による全体の処理アルゴリズムを示すフローチャート。
【図4】図2中の辞書データ21のデータ構造を示す図。
【図5】図2中の生成パタン判定ルール22のデータ構造を示す図。
【図6】図2中の制約条件設定データ23のデータ構造を示す図。
【図7】基本略語置換処理における処理アルゴリズムを示すフローチャート。
【図8】図2中の略称候補生成条件データ24のデータ構造を示す図。
【図9】図2中の基本略語データ25のデータ構造を示す図。
【図10】略称生成処理における処理アルゴリズムを示すフローチャート。
【図11】略称生成ルール設定データ27のデータ構造を示す図。
【図12】形態素解析用辞書26のデータ構造を示す図。
【図13】他定義選択処理における処理アルゴリズムを示すフローチャート。
【図14】短縮名称登録処理の処理アルゴリズムを示すフローチャート。
【図15】略語置換処理により略称候補が生成される様子を示す図。
【図16】略称生成処理により略称候補が生成される様子を示す図。
【図17】略称候補リストからSHORTNAME.ENが決定される様子を示す図。
【図18】他定義選択処理の様子を示す図。
【図19】確定されたSHORTNAME.ENおよびSHORTNAME.JAにより更新された辞書データの一例を示す図。
【符号の説明】
1…プロセッサ
2…メインメモリ
3…ハードディスク装置
3a…短縮名称作成支援プログラム
4…CD−ROMドライブ
5…キーボード/マウス
6…ディスプレイ
7…バス
11…辞書データ読込み部
12…短縮名称生成パタン判定部
13…生成処理制御部
14…基本略語置換処理部
15…略称生成処理部
16…他定義選択処理部
17…短縮名称登録部
21…辞書データ
22…生成パタン判定ルール
23…制約条件設定データ
24…略称候補生成条件データ
25…基本略語データ
26…形態素解析用辞書
27…略称生成ルール設定データ
28…略称候補リスト
M…CD−ROMメディア

Claims (10)

  1. 電子カタログ辞書に製品分類やその製品分類の属する技術属性を定義するための名称を表すために含まれる語句に関する短縮語の作成を支援する短縮語作成支援装置において、
    前記語句に関してそれぞれ異なる方法で前記短縮語としての候補文字列を生成する複数の候補生成手段と、
    前記語句を含んだ辞書要素の書式を規定するために前記電子カタログ辞書に示された情報と前記語句に関する短縮語が前記電子カタログ辞書に含まれるか否かを表す情報とに対応付けて予め定められた少なくとも1つの候補生成手段を前記複数の候補生成手段のうちから選択する選択手段と、
    この選択手段により選択された前記候補生成手段により生成された候補文字列を前記短縮語の候補として選定する候補選定手段とを具備したことを特徴とする短縮語作成支援装置。
  2. 前記候補選定手段により選定された前記短縮語の候補のうちから所定の決定条件に従って前記短縮語を決定する短縮語決定手段を備えたことを特徴とする請求項1に記載の短縮語作成支援装置。
  3. 前記短縮語決定手段は、前記短縮語の候補のうちから短縮語とするもののユーザ指定を受け付け、そのユーザ指定に応じて短縮語を決定することを特徴とする請求項2に記載の短縮語作成支援装置。
  4. 前記短縮語決定手段により決定された短縮語を前記電子カタログ辞書に登録する登録手段を備えたことを特徴とする請求項2または請求項3に記載の短縮語作成支援装置。
  5. 前記複数の候補生成手段の1つは、前記語句に含まれる文字列を予め用意された基本略語で置換することで前記候補文字列を生成することを特徴とする請求項1乃至請求項4のいずれか1項に記載の短縮語作成支援装置。
  6. 前記複数の候補生成手段の1つは、前記語句の構文を解析し、この解析結果を予め定められた短縮語生成規則に基づいて処理することで前記候補文字列を生成することを特徴とする請求項1乃至請求項5のいずれか1項に記載の短縮語作成支援装置。
  7. 前記電子カタログ辞書は前記名称を表すための複数の言語の語句をそれぞれ含み、
    かつ前記複数の候補生成手段の1つは、1つの言語の語句に対応する他言語の語句に対して定められた短縮語を前記候補文字列とすることを特徴とする請求項1乃至請求項6のいずれか1項に記載の短縮語作成支援装置。
  8. 電子カタログ辞書に製品分類やその製品分類の属する技術属性を定義するための名称を表すために含まれる語句に関する短縮語の作成を支援するための処理をコンピュータに行わせるもので、前記コンピュータを、
    前記語句に関してそれぞれ異なる方法で前記短縮語としての候補文字列を生成する複数の候補生成手段と、
    前記語句を含んだ辞書要素の書式を規定するために前記電子カタログ辞書に示された情報と前記語句に関する短縮語が前記電子カタログ辞書に含まれるか否かを表す情報とに対応付けて予め定められた少なくとも1つの候補生成手段を前記複数の候補生成手段のうちのから選択する選択手段と、
    この選択手段により選択された前記候補生成手段により生成された候補文字列の全てを前記短縮語の候補として選定する候補選定手段としてそれぞれ機能させる短縮語作成支援プログラム。
  9. さらに前記コンピュータを、前記候補選定手段により選定された前記短縮語の候補のうちから所定の決定条件に従って前記短縮語を決定する短縮語決定手段として機能させることを特徴とする請求項8に記載の短縮語作成支援プログラム。
  10. さらに前記コンピュータを、前記短縮語決定手段により決定された短縮語を前記電子カタログ辞書に登録する登録手段として機能させることを特徴とする請求項9に記載の短縮語作成支援プログラム。
JP2002284332A 2002-09-27 2002-09-27 短縮語作成支援装置および短縮語作成支援プログラム Expired - Fee Related JP3898615B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002284332A JP3898615B2 (ja) 2002-09-27 2002-09-27 短縮語作成支援装置および短縮語作成支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002284332A JP3898615B2 (ja) 2002-09-27 2002-09-27 短縮語作成支援装置および短縮語作成支援プログラム

Publications (2)

Publication Number Publication Date
JP2004118741A JP2004118741A (ja) 2004-04-15
JP3898615B2 true JP3898615B2 (ja) 2007-03-28

Family

ID=32277926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002284332A Expired - Fee Related JP3898615B2 (ja) 2002-09-27 2002-09-27 短縮語作成支援装置および短縮語作成支援プログラム

Country Status (1)

Country Link
JP (1) JP3898615B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4769556B2 (ja) * 2004-11-30 2011-09-07 株式会社リコー 情報処理装置、画像処理機能設定方法、画像処理機能設定プログラム及び記録媒体
JP2007148674A (ja) * 2005-11-25 2007-06-14 Konica Minolta Business Technologies Inc 情報表示方法
WO2008075489A1 (ja) * 2006-12-18 2008-06-26 Mitsubishi Electric Corporation 短縮文字列生成装置およびその表示装置ならびに音声出力装置
JP5248121B2 (ja) * 2008-01-11 2013-07-31 株式会社東芝 愛称を推定する装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2004118741A (ja) 2004-04-15

Similar Documents

Publication Publication Date Title
US6345243B1 (en) System, method, and product for dynamically propagating translations in a translation-memory system
US6345244B1 (en) System, method, and product for dynamically aligning translations in a translation-memory system
Ofazer et al. Bootstrapping morphological analyzers by combining human elicitation and machine learning
JP2009545077A (ja) 利用可能なソースデータ及びローカライゼーションの再利用
GB2417103A (en) Natural language translation system
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JP3871832B2 (ja) データ処理プログラム自動生成システム及びその方法並びにコンピュータ可読記録媒体
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JP3898615B2 (ja) 短縮語作成支援装置および短縮語作成支援プログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP2001060194A (ja) 企画支援装置、企画支援方法および企画支援プログラムを格納したコンピュータ読取り可能な記録媒体
JP2005063030A (ja) 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP7083473B2 (ja) 入力支援装置
JP3345522B2 (ja) データ項目部品を利用するプログラム開発支援装置
JP4399154B2 (ja) 翻訳装置、及び翻訳プログラム
JP3379643B2 (ja) 形態素解析方法および形態素解析プログラムを記録した記録媒体
JP3050467B2 (ja) データ項目辞書生成方法
JP2010217972A (ja) 構造化文書生成装置及び構造化文書生成プログラム
JP2023152343A (ja) 生成装置、生成方法、および生成プログラム
JP2004264960A (ja) 用例ベースの文変換装置、およびコンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051011

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061221

LAPS Cancellation because of no payment of annual fees