JP2010079709A - 文書作成支援装置、プログラムおよび文書作成支援方法 - Google Patents

文書作成支援装置、プログラムおよび文書作成支援方法 Download PDF

Info

Publication number
JP2010079709A
JP2010079709A JP2008248780A JP2008248780A JP2010079709A JP 2010079709 A JP2010079709 A JP 2010079709A JP 2008248780 A JP2008248780 A JP 2008248780A JP 2008248780 A JP2008248780 A JP 2008248780A JP 2010079709 A JP2010079709 A JP 2010079709A
Authority
JP
Japan
Prior art keywords
dictionary
character string
document
creation support
property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008248780A
Other languages
English (en)
Inventor
Yasutaka Otake
康隆 大嶽
Hiroshi Murayama
廣 村山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008248780A priority Critical patent/JP2010079709A/ja
Publication of JP2010079709A publication Critical patent/JP2010079709A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データ品質を向上させることができる文書作成支援装置を提供する。
【解決手段】辞書要素として文書に対する文字列の入力を受け付ける文字列入力手段21と、文字列が辞書30で定義された辞書要素の何れであることを意図したものであるかを検証するために、確からしさを表す類似度順に辞書要素を検索する類似検索手段24と、検索された辞書要素を文字列に代える候補として選択可能なように提示する候補提示手段25aと、を備えることにより、データ項目名称は一致させられなくても、概念自体は標準辞書に定義された名称と一致させることができるようになるので、製品の仕様文書を利用するユーザ企業、製品の仕様文書を作成するサプライ企業や間の意味解釈の齟齬をなくすことができ、データ品質を向上させることができる。
【選択図】 図3

Description

本発明は、文書作成支援装置、プログラムおよび文書作成支援方法に関する。
一般に、ホームページなどで提供される製品カタログや製品納入仕様書をはじめとする製品の仕様文書は、ワープロソフトやHTMLエディタを用いて作成されることが多い。また、製品の仕様文書は、サプライヤ各社における独自のデータ項目やレイアウトを定義・使用し、提供されることが多い。すなわち、サプライヤ間においては、データ項目の統一がとれていないことが一般的である。このようにサプライヤ各社における独自のデータ項目やレイアウトで製品の仕様文書が提供される場合、仕様を表現するデータ項目が不統一となるため、文書を横並びで検索しようとする際に不都合が生じるという問題がある。
そこで、近年においては、上述のような問題を解決すべく、製品仕様を表現するデータ項目およびデータ項目を表現するためのアトリビュートを標準化しようという試みがなされている。
その1つとして、ISO13584(通称、PLIB)がある。このPLIBは、製品仕様を記述する「辞書」と呼ばれるデータ項目の集合と、辞書に従って具体的な製品仕様を記述した「コンテンツ」を交換するための構造を定めた国際規格である。PLIBは、階層型データベースの1つととらえることができる。
このようなPLIB規格のデータモデルに従う国際辞書としては、計測器に関するISO13584-501、ボルト/ナットなどに関するISO13584-511などがある。また、工業界標準辞書としては、日本ではECALS辞書、JeMarche辞書などがある。世界各国においても、このような辞書の開発が活発となっている。
さらに、近年においては、PLIB規格に準拠したシステムがいくつか提案されている(特許文献1,2)。
特開2004−177996号公報 特開2004−178015号公報
しかしながら、PLIB規格に準拠してシステムを構築した場合であっても、解決せねばならない問題がある。
例えば、サプライヤ企業においては、製品の仕様文書にデータ項目を記述する際、サプライヤ企業が独自に定めた標準で定義されたものとは異なるデータ項目名称を用いることがあり、これがユーザ企業側の利便性を損なう点が問題となっている。また、標準で定義された名称に改訂しようとしても、サプライヤ企業内における歴史的理由から、サプライヤ企業が定義したデータ項目名称を突然標準的な名称に全面的に変更することはできないという問題が生じることがある。
本発明は、上記に鑑みてなされたものであって、製品の仕様文書などにおいて可能な限り標準辞書で定義された用語と概念を用いたデータ項目の記述が実現でき、ひいては製品の仕様文書を利用するユーザ企業、製品の仕様文書を作成するサプライヤ企業間の意味解釈の齟齬をなくすことができ、データ品質を向上させることができる文書作成支援装置、プログラムおよび文書作成支援方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の文書作成支援装置は、編集対象となる文書に対してコンテンツとして記述するためのプロパティ及び当該プロパティの性質を定義するアトリビュートを有する標準辞書にて定められる辞書要素と、前記プロパティの集合に付された少なくとも1つの識別子とを関連付けて辞書を格納する辞書記憶手段と、前記辞書要素として前記文書に対する文字列の入力を受け付ける文字列入力手段と、前記文字列が前記辞書で定義された前記辞書要素の何れであることを意図したものであるかを検証するために、確からしさを表す類似度順に前記辞書要素を検索する類似検索手段と、検索された前記辞書要素を前記文字列に代える候補として選択可能なように提示する候補提示手段と、を備えることを特徴とする。
また、本発明のプログラムは、編集対象となる文書に対してコンテンツとして記述するためのプロパティ及び当該プロパティの性質を定義するアトリビュートを有する標準辞書にて定められる辞書要素として前記文書に対する文字列の入力を受け付けて第1の文字列を確定する文字列入力手段と、前記文字列が前記辞書で定義された前記辞書要素の何れであることを意図したものであるかを検証するために、確からしさを表す類似度順に前記辞書要素を検索する類似検索手段と、検索された前記辞書要素を前記文字列に代える候補として選択可能なように提示する候補提示手段と、としてコンピュータを機能させることを特徴とする。
また、本発明の文書作成支援方法は、文書作成支援装置で実行される文書作成支援方法であって、前記文書作成支援装置は、制御部と記憶部を備え、前記制御部において実行される、文字列入力手段が、編集対象となる文書に対してコンテンツとして記述するためのプロパティ及び当該プロパティの性質を定義する詳細情報フィールドであるアトリビュートを有する標準辞書にて定められる辞書要素として前記文書に対する文字列の入力を受け付けて第1の文字列を確定するステップと、類似検索手段が、前記文字列が前記辞書で定義された前記辞書要素の何れであることを意図したものであるかを検証するために、確からしさを表す類似度順に前記辞書要素を検索するステップと、候補提示手段が、検索された前記辞書要素を前記文字列に代える候補として選択可能なように提示するステップと、を含むことを特徴とする。
本発明によれば、辞書要素として文書に対する文字列の入力を受け付けた第1の文字列が辞書で定義された辞書要素の何れであることを意図したものであるかを検証するために、確からしさを表す類似度順に辞書要素を検索し、検索された何れかの辞書要素を第1の文字列に代えて入力された辞書要素として確定することにより、データ項目名称は一致させられなくても、概念自体は標準辞書に定義された名称と一致させることができるようになるので、製品の仕様文書などにおいて可能な限り標準辞書で定義された用語と概念を用いたデータ項目の記述が実現でき、ひいては製品の仕様文書を利用するユーザ企業、製品の仕様文書を作成するサプライ企業や間の意味解釈の齟齬をなくすことができ、データ品質を向上させることができる、という効果を奏する。
以下に添付図面を参照して、この発明にかかる文書作成支援装置、プログラムおよび文書作成支援方法の最良な実施の形態を詳細に説明する。
本発明の実施の一形態を図1ないし図12に基づいて説明する。
[1.システムの構成]
図1は、本発明の実施の一形態にかかる文書作成支援システムのシステム構築例を示す模式図である。文書作成支援システムは、図1に示すように、サーバコンピュータ(以下、サーバという)1にLAN(Local Area Network)等のネットワーク2を介してクライアントコンピュータ(以下、クライアント端末という)3が複数台接続されたサーバクライアントシステムを想定する。クライアント端末3は、一般的なパーソナルコンピュータ等である。なお、クライアント端末とサーバとが同一のパーソナルコンピュータ上にあっても良い。
図2は、サーバ1およびクライアント端末3のモジュール構成図である。サーバ1およびクライアント端末3は、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)102、各種データを書換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納する記憶部であるHDD(Hard Disk Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等の媒体駆動装置105、ネットワーク2を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置106、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示部107、並びに操作者がCPU101に命令や情報等を入力するためのキーボードやマウス等のポインティングデバイスである入力部108等から構成されており、これらの各部間で送受信されるデータをバスコントローラ109が調停して動作する。
このようなサーバ1およびクライアント端末3では、操作者が電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、オペレータの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのOS上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
ここで、サーバ1は、アプリケーションプログラムとして、文書作成支援プログラムをHDD104に記憶している。この意味で、HDD104は、文書作成支援プログラムを記憶する記憶媒体として機能する。
一方、クライアント端末3は、アプリケーションプログラムとして、編集処理プログラムをHDD104に記憶している。この意味で、HDD104は、編集処理プログラムを記憶する記憶媒体として機能する。
また、一般的には、サーバ1およびクライアント端末3のHDD104にインストールされるアプリケーションプログラムは、CD−ROMやDVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体110に記録され、この記憶媒体110に記録された動作プログラムがHDD104にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体110も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置106を介して外部から取り込まれ、HDD104にインストールされても良い。
サーバ1は、OS上で動作する文書作成支援プログラムが起動すると、この文書作成支援プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。一方、クライアント端末3は、OS上で動作する編集処理プログラムが起動すると、この編集処理プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。サーバ1およびクライアント端末3のCPU101が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。
クライアント端末3は、編集処理プログラムに従うことにより、サーバ1から受信したデータを、GUI(Graphic User Interface)を介して表示部107に出力し、表示部107に表示された各画面上でオペレータが入力部108を介して行った作業や設定内容に基づくデータやコマンドを、GUIを介して受け取り、サーバ1へ送信する。詳細は後述するが、本実施の形態におけるクライアント端末3は、編集処理プログラムに従うことにより、図3に示すように、文書編集者が使用するものであって各種文書項目の編集を行う文書編集者端末11として機能する。
一方、サーバ1は、図3に示すように、文書作成支援プログラムに従うことにより、文書作成支援装置として機能するものであって、標準辞書にて定められた辞書要素(後述するPLIB規格ではプロパティに相当する)を格納する辞書である辞書要素DB30を備える。
また、サーバ1は、文書作成支援プログラムに従うことにより、文字列入力部21と、仮名漢字変換部22と、評価点計算部23と、類似検索部24と、辞書要素確定部25と、辞書要素挿入部26と、文書編集部27と、既入力文字列管理部28と、対象製品クラス指定部31と、対象領域指定部32と、を備える。
以下、各部について詳述する。
文字列入力部21は、文字列入力手段として機能するものであり、文書編集者端末11より文字列入力を受け付ける。
仮名漢字変換部22は、文字列入力部21で入力を受け付けた仮名文字列を漢字文字列(第1の文字列)へ変換する。入力を受け付けた仮名文字列を変換した漢字文字列を以下、第1の文字列と称する。
評価点計算部23は、仮名漢字変換部22により変換された第1の文字列と辞書要素との間における類似度を予め決められた計算式又は表により求める。本実施の形態においては、以下に示すような類似度計算を行うための基準である評価点が、評価点計算部23に定められているものとする。文書編集者端末11を介して入力される文字列を
Str(k) (k=0,1,2,…n)
とし、その文書上の位置をPkと表現する。今入力した文字列Str(0)が、プロパティQであることを意図したものである確からしさ(類似度)を、下記に示す式1のように定義する。
Figure 2010079709
なお、評価点(Q,Str(k))は以下のように定義する。
1)文字列Str(k)がプロパティQの「名称」と完全一致する場合 10点
2)文字列Str(k)がプロパティQの「名称」と部分一致する場合 5点
3)文字列Str(k)がプロパティQの「同義語」と完全一致する場合 8点
4)文字列Str(k)がプロパティQの「同義語」と部分一致する場合 3点
5)文字列Str(k)がプロパティQの「定義」と部分一致する場合 2点
また、文字列間の近接度合いNeigh(P,P)は、下記に示す式2のように定義する。
Figure 2010079709
: 今入力した文字列の先頭位置
: 指定領域中の入力済みの文字列の先頭位置(k>=1の時)
Dist(Px,Py): 位置Pxと位置Pyとのユークリッド距離
Dist0: 指定領域の対角線距離
k=0,1,…n
なお、近接度合いは、文字列間の距離が0の時は近接度合いが1となり、距離が遠くなるに従い指数関数的に近接度合いは減っていく特徴を持つ関数とする。
類似検索部24は、類似検索手段として機能するものであり、仮名漢字変換部22により変換された第1の文字列をキーとし、評価点計算部23の計算結果に従って類似度の高い辞書要素を検索する。
辞書要素確定部25は、辞書要素確定手段として機能するものであり、類似検索部24による類似検索結果を文書編集者端末11に提示する候補提示手段25aを備え、文書編集者端末11を介して編集者の指示を受け辞書要素を確定し、第1の文字列、もしくは、確定した辞書要素のアトリビュート値のうち指定した1つの値を確定データ項目名として確定する。辞書要素確定部25は、確定した確定データ項目名を文書編集部27に渡す。
辞書要素挿入部26は、辞書要素挿入手段として機能するものであり、辞書要素確定部25で確定した辞書要素の概念識別子であるBSUコードを確定データ項目名へのタグとして文書編集部27に渡す。
文書編集部27は、辞書要素確定部25から渡された対象文書への確定データ項目名に対し、辞書要素挿入部26から渡されたBSUコードをタグとして挿入して編集する。
既入力文字列管理部28は、文書編集部27にて編集されたデータ項目について、その位置情報を管理し、第1の文字列に距離上に近い(複数の)既確定データ項目名を補足文字列として取得する。
対象製品クラス指定部31は、クラス指定手段として機能するものであり、文書編集者の指示によって文書編集者端末11を介して入力された対象製品のクラスの指定を受け付ける。
対象領域指定部32は、文書編集者の指示によって文書編集者端末11を介して入力された編集対象となる表領域の指定を受け付ける。
[2.辞書要素DB30に格納される辞書要素のデータ構造]
次に、辞書要素DB30に格納される辞書要素のデータ構造について説明する。図4は、辞書要素DB30に格納される辞書要素のデータ構造の一例を示す模式図である。図4に示す辞書要素は、クラスの親子構造、プロパティとそのアトリビュートの種類、データ型の種類などの辞書の構造を定めたデータモデルの1つとして、製品部品ライブラリの交換フォーマットの国際標準であるISO13584/Parts Library(PLIB)規格に従ったものである。より詳細には、図4に示す辞書要素は、「COMPONENT」という分類をルートクラスとし、その子クラスとして「汎用ロジックIC」と「汎用リニアIC」とが関連付けられ、さらに「汎用ロジックIC」の子クラスとして「CMOS」と「TTL」とが関連付けられた階層構造を有している。すなわち、「汎用ロジックIC」は「CMOS」「TTL」という2つの分類に細分化されることを示している。なお、このような階層構造は何段であっても構わない。また、()内に書かれた記号(この例では、EC#XJAnnn#001)は、辞書内で唯一につけられたクラスを表すコードであり、PLIB規格では「クラスBSUコード」と呼ぶ識別子に相当する。
図4に示すように、階層構造を定義するクラスには、それぞれ固有のプロパティ(図4中、破線で囲まれた部分)が定義される。各クラスにおいては、当該クラスの上位クラスで定義されたプロパティを継承する。例えば、クラス「CMOS」が持つプロパティは、当該クラスで定義されたプロパティ(この例では存在しない)と、その上位クラス「汎用ロジックIC」で定義されたプロパティ(「EC#XJG067#001」「EC#XJG068#001」「EC#XJG074#001」「EC#XJG075#001」)と、クラス「COMPONENT」で定義されたプロパティ(「EC#XJE010#001」「EC#XJE132#001」「EC#XJE016#001」「EC#XJE017#001」「EC#XJE007#001」)ということになる。クラスの場合と同様にプロパティにおいても辞書内で唯一につけられたプロパティを表すコード(「プロパティBSUコード」又は単に「BSU」)が付与される。
また、各プロパティの具体的定義項目を図5に示す。各プロパティには、その詳細情報フィールドである(すなわち、プロパティの性質を定義する)アトリビュートが付与される。ここにあげた「BSU」「名称.日本語」「名称.英語」「定義.日本語」「同義語.日本語」はアトリビュートの例である。また、本実施の形態では利用しないが、プロパティのデータ型を示す「データ型」や、プロパティ自体の定義の出典を示す「出典文書」といったアトリビュートもPLIB規格には存在する。
なお、本実施の形態においては、辞書がPLIB規格に従った場合の適用例を用い説明するが、この制限が本発明をPLIB規格以外のデータベースへ適用することを妨げるものではない。また、本実施の形態においては、階層型の辞書を元に説明を行ったが、プロパティが決まったアトリビュートを持つ辞書であれば、階層の無いフラットな辞書であっても、本発明の適用を妨げるものではない。
[3.動作説明]
次に、文書作成支援システム全体の処理について、図3のデータの流れを参照しつつ順を追って説明する。
なお、本実施の形態では、作成する文書は図6および図7に示すような表形式文書(スペックシート)とし、図6および図7に提示したところまでは入力済みであるとする。また、編集対象とする製品クラスは、文書編集者の指示により対象製品クラス指定部31から指定されたCMOS(EC#XJA676#001)であることがわかっているものとする。
まず、図6に示す「ページ1/2」で示した表形式文書の編集について説明する。図6に示す表形式文書においては、対象製品クラス指定部31を介して文書編集者より指定された対象製品クラスがCMOS(EC#XJA676#001)であるため、対象プロパティはCMOSで定義されたプロパティに絞られる。なお、対象領域指定部32においては、文書編集者より編集対象となる表領域が指定可能であることとなっているが、図6に示す表形式文書では表領域の指定はなされていないものとする。
このような状態において、図8に示すように、矢印Aで示す表形式文書の欄に「きのう」と入力されたことを文字列入力部21により受け付けたとする。すると、図8に示すように、仮名漢字変換部22は、文字列入力部21に入力を受け付けた仮名文字列を漢字文字列(第1の文字列)へ変換する。ここでは、仮名漢字変換部22は、「機能」「昨日」「きのう」「帰納」といった候補を提示する。そして、例えば文書編集者が「機能」を選択した場合には、第1の文字列としては「機能」と確定する。
続いて、類似検索部24において、第1の文字列である「機能」という文字列が、図5で定義された各プロパティの何れであることを意図したものであるかを検証し、確からしい順番(類似度順)にプロパティを順位付ける。ここで、類似検索部24における類似検索処理の流れを図9および図10のフローチャートを参照しつつ説明する。
まず、対象領域指定部32が、文書編集者の指示によって文書編集者端末11を介して入力された編集対象となる表領域の指定を受け付けたか否かを判断する(ステップS1)。上述したように、表領域の指定を受け付けていないので(ステップS1のNo)、ステップS3に進み、n=0を設定する。
なお、表領域の指定を受け付けている場合には(ステップS1のYes)、既入力文字列管理部28より対象指定領域中の既存文字列の数を取得し、その値nを設定する(ステップS2)。
次に、全プロパティQ(i)に対して類似度計算を実行する(ステップS4〜S6)。ここで、Q(i)は、辞書要素DB30に格納されたプロパティのうち、対象製品クラス指定部31で指定されたクラスで定義済みのプロパティである。本実施の形態においては、対象製品クラスがCOMS(EC#XJA676#001)であるので、Q(i)は図5で定義されたプロパティのうち、EC#XJH267#001以外のプロパティとなる。
上述のように類似度計算を全Q(i)に対して処理することになるが、図5中のプロパティEC#XJE132#001を対象とした場合の処理について説明する。上述したように、ステップS3でn=0が設定されているため、既に入力された文字列についての評価点は加算しないこととなる。すなわち、図10に示す類似度計算処理(ステップS5)のフローチャートによれば、ステップS52のForループは1度しか評価されず、ステップS53〜S55を通過する。従って、その類似度は、文字列Str(k)がプロパティQの「名称」と完全一致しており評価点(Q,Str(k))は10点であり、文字列間の距離が0の時は近接度合いが1であることから、
類似度0(XJE132,“機能”)=評価点(XJE132,“機能”)*Neigh(P,P
=10*1=10
となる。なお、評価点は評価点計算部23から取得し、Neighは既入力文字列管理部28より取得する。
同様に、図5中のプロパティEC#XJE016#001を対象とした場合には、文字列Str(k)がプロパティQの「名称」と部分一致しており評価点(Q,Str(k))は5点であり、文字列間の距離が0の時は近接度合いが1であることから、
類似度0(XJE016,“機能”)=評価点(XJE016,“機能”)*Neigh(P,P
=5*1=5
となる。
なお、上式におけるプロパティコードの表記では、サプライヤコードとバージョン番号を省略している。すなわち、XJE016はEC#XJE016#001を示している。また、その他のプロパティとの間の類似度は、評価点が0である為に全て0となる。
次に、辞書要素確定部25にて、この候補が文書編集者端末11を通して文書編集者に提示され、文書編集者は提示された候補から選択することになる。例えば、文書編集者がEC#XJE132#001を選択したものとすると、確定データ項目名としては次の2種類から選べることになる。
1)仮名漢字変換部22の出力である第1の文字列としての「機能」
2)確定した辞書要素のアトリビュートのいずれか(例えば、アトリビュート:名称.enの「function」)
すなわち、英文の表形式文書に対して文書編集者が「機能」と入力した場合でも、図11に示すように、英文の表形式文書に合わせて確定した辞書要素の中のアトリビュート値のうちの1つの値「function」に変換することができる。
さらに、辞書要素挿入部26において、辞書要素確定部25にて確定したプロパティ(「概念」とも呼ぶ)のBSUコード(この例では名称も)を、確定データ項目名に対するタグとして文書編集部27を通して挿入する。
ここで、確定したプロパティのBSUコードの確定データ項目名に対するタグとしての挿入例について説明する。近年では、文書内のデータとレイアウトを分離するため、XML形式による記述がなされることがある。すでに作成された文書からデータを分離するには、文書への明示的なタグ付けが必要となる。編集者によるタグ付けを支援する商用エディタはすでにいくつか存在する。例えば、Microsoft社のword2007では、「カスタム定義XML」という機能があり、編集者が文書上のフラグメントに独自に定義したタグを用いタグ付けすることができる。また、編集文書は、「Office Open XML」という標準フォーマットで出力・保存される。そこで、Office Open XML形式に従い、カスタム定義XMLを利用した時のタグ挿入例(該当部分のみ)を下記に示す。

<w:tc>
<w:tcPr>
<w:tcW w:w="2175" w:type="dxa" />
</w:tcPr>
<w:customXml w:uri="http://www.sample.world/prop" w:element="property">
<w:customXmlPr>
<w:attr w:name="cid" w:val="EC#XJE132#001" />
<w:attr w:name="prefName" w:val="機能" />
</w:customXmlPr>
<w:p w:rsidR="00A779E9" w:rsidRDefault="00CB42ED" w:rsidP="00A779E9">
<w:r>
<w:rPr>
<w:sz w:val="20" />
<w:szCs w:val="20" />
</w:rPr>
<w:t>機能</w:t>
</w:r>
</w:p>
</w:customXml>
</w:tc>

なお、ここで予め定義したカスタムXMLのスキーマは以下の通りである。

<?xml version="1.0" encoding="UTF-8"?>
<xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema"
xmlns:prop="http://www.sample.world/prop"
targetNamespace="http://www.sample.world/prop">
<xsd:element name="property" type="prop:propertyType"/>
<xsd:complexType name="propertyType" mixed="true">
<!BSUコード
<xsd:attribute name="cid" type="xsd:string" use="required"/>
<!名称
<xsd:attribute name="prefName" type="xsd:string"/>
</xsd:complexType>
</xsd:schema>
次に、図7に示す「ページ2/2」で示した表形式文書の編集について説明する。図7に示す表形式文書においては、図6に示す表形式文書と同様に、対象製品クラス指定部31を介して文書編集者より指定された対象製品クラスがCMOS(EC#XJA676#001)であるため、対象プロパティはCMOSで定義されたプロパティに絞られる。なお、対象領域指定部32においては、文書編集者より編集対象となる表領域が指定可能であることとなっているが、図7に示す表形式文書では文書編集者より太線内の表領域が指定されているものとする。
このような状態において、図12に示すように、矢印Bで示す表形式文書の欄P0に「こうれべる」と入力されたことを文字列入力部21により受け付けたとする。この場合、Dist(P0,P0)=1,Dist(P1,P0)=1.5,Dist(P2,P0)=4.0,Dist0=10とする。
すると、図12に示すように、仮名漢字変換部22は、文字列入力部21に入力を受け付けた仮名文字列を漢字文字列(第1の文字列)へ変換する。ここでは、仮名漢字変換部22は、「高レベル」「梱れベル」といった候補を提示する。そして、例えば、文書編集者が「高レベル」を選択した場合には、第1の文字列としては「高レベル」と確定する。
続いて、類似検索部24において、第1の文字列である「高レベル」という文字列が、図5で定義された各プロパティの何れであることを意図したものであるかを検証し、確からしい順番(類似度順)にプロパティを順位付ける。ここで、類似検索部24における類似検索処理の流れを図9および図10のフローチャートを参照しつつ説明する。
まず、対象領域指定部32が、文書編集者の指示によって文書編集者端末11を介して入力された編集対象となる表領域の指定を受け付けたか否かを判断する(ステップS1)。上述したように、文書編集者より表領域が指定されているので(ステップS1のYes)、ステップS2に進み、既入力文字列管理部28より対象指定領域中の既存文字列の数を取得し、その値nとする。具体的には、図7に示す例で指定されていて対象領域にある既存文字列は「出力電圧」(位置P1)、「入力電流」(位置P2)である。従って、n=2を設定する。
次に、全プロパティQ(i)に対して類似度計算を実行する(ステップS4〜S6)。ここで、Q(i)は、辞書要素DB30に格納されたプロパティのうち、対象製品クラス指定部31で指定されたクラスで定義済みのプロパティである。本実施の形態においては、対象製品クラスがCOMS(EC#XJA676#001)であるので、Q(i)は図5で定義されたプロパティのうち、EC#XJH267#001以外のプロパティとなる。
上述のように類似度計算を全Q(i)に対して処理することになるが、図5中のプロパティEC#XJG074#001を対象とした場合の処理について説明する。上述したように、ステップS2でn=2が設定されているため、既に入力された文字列についての評価点も加算することになる。すなわち、図10に示す類似度計算処理(ステップS5)のフローチャートによれば、ステップS52のForループは3度評価される。従って、その類似度は、k=0時に文字列Str(k)がプロパティQの「同義語」と部分一致しており評価点(Q,Str(k))は3点であって文字列間の距離が0の時は近接度合いが1.0であり、k=1時に文字列Str(k)がプロパティQの「名称」と部分一致しており評価点(Q,Str(k))は5点であるとともに文字列Str(k)がプロパティQの「同義語」と部分一致しており評価点(Q,Str(k))は3点であって文字列間の距離がDist(P1,P0)の時は近接度合いが0.47であり、k=2時に文字列Str(k)はプロパティQと一致しておらず評価点(Q,Str(k))は0点であって文字列間の距離がDist(P2,P0)の時は近接度合いが0.13であることから、
類似度2(XJG074)=評価点(XJG074,“高レベル”)*Neigh(P0,P0) k=0
+評価点(XJG074,“出力電圧”)*Neigh(P1,P0) k=1
+評価点(XJG074,“入力電流”)*Neigh(P2,P0) k=2
=3*1.0+(5+3)*0.47+0*0.13
=6.8
同様にして、プロパティEC#XJG067#001を対象とする場合は、下記のような類似度が算出される。
類似度2(XJG067)=評価点(XJG067,“高レベル”)*Neigh(P0,P0) k=0
+評価点(XJG067,“出力電圧”)*Neigh(P1,P0) k=1
+評価点(XJG067,“入力電流”)*Neigh(P2,P0) k=2
=3*1.0+0*0.47+(5+3)* 0.13
=4.0
同様にして、プロパティEC#XJG075#001を対象とする場合は、、下記のような類似度が算出される。
類似度2(XJG075)=評価点(XJG075,“高レベル”)*Neigh(P0,P0) k=0
+評価点(XJG075,“出力電圧”)*Neigh(P1,P0) k=1
+評価点(XJG075,“入力電流”)*Neigh(P2,P0) k=2
=0*1.0+(5+3)* 0.47+0*0.13
=3.7
同様にして、プロパティEC#XJG068#001を対象とする場合は、下記のような類似度が算出される。
類似度2(XJG068)=評価点(XJG068,“高レベル”)*Neigh(P0,P0) n=0
+評価点(XJG068,“出力電圧”)*Neigh(P1,P0) n=1
+評価点(XJG068,“入力電流”)*Neigh(P2,P0) n=2
=0*1.0+0* 0.47+0*0.13
=0
また、その他のプロパティとの間の類似度も(評価点が0である為)全て0となる。なお、EC#XJH268#001については、類似検索の対象外となっていることに注意する。
次に、辞書要素確定部25にて、この候補が文書編集者端末11を通して文書編集者に提示され、文書編集者は提示された候補から選択することになる。
さらに、辞書要素挿入部26において、辞書要素確定部25にて確定したプロパティ(「概念」とも呼ぶ)のBSUコード(この例では名称も)を、確定データ項目名に対するタグとして文書編集部27を通して挿入する。
このように本実施の形態によれば、辞書要素として文書に対する文字列の入力を受け付けた第1の文字列が辞書で定義された辞書要素の何れであることを意図したものであるかを検証するために、確からしさを表す類似度順に辞書要素を検索し、検索された何れかの辞書要素を第1の文字列に代えて入力された辞書要素として確定することにより、データ項目名称は一致させられなくても、概念自体は標準辞書に定義された名称と一致させることができるようになるので、製品の仕様文書などにおいて可能な限り標準辞書で定義された用語と概念を用いたデータ項目の記述が実現でき、ひいては製品の仕様文書を利用するユーザ企業、製品の仕様文書を作成するサプライ企業や間の意味解釈の齟齬をなくすことができ、データ品質を向上させることができる。
本発明の実施の一形態にかかる文書作成支援システムのシステム構築例を示す模式図である。 サーバおよびクライアント端末のモジュール構成図である。 文書作成支援システムの機能構成を示すブロック図である。 辞書要素のデータ構造の一例を示す模式図である。 プロパティの具体的定義項目を示す模式図である。 表形式文書の一例を示す模式図である。 表形式文書の一例を示す模式図である。 第1の文字列の確定手法を示す模式図である。 類似検索処理の流れを示すフローチャートである。 類似度計算処理の流れを示すフローチャートである。 表形式文書の一例を示す模式図である。 第1の文字列の確定手法を示す模式図である。
符号の説明
1 文書作成支援装置
21 文字列入力手段
23 評価点計算手段
24 類似検索手段
25a 候補提示手段
26 辞書要素挿入手段
30 辞書

Claims (10)

  1. 編集対象となる文書に対してコンテンツとして記述するためのプロパティ及び当該プロパティの性質を定義するアトリビュートを有する標準辞書にて定められる辞書要素と、前記プロパティの集合に付された少なくとも1つの識別子とを関連付けて辞書を格納する辞書記憶手段と、
    前記辞書要素として前記文書に対する文字列の入力を受け付ける文字列入力手段と、
    前記文字列が前記辞書で定義された前記辞書要素の何れであることを意図したものであるかを検証するために、確からしさを表す類似度順に前記辞書要素を検索する類似検索手段と、
    検索された前記辞書要素を前記文字列に代える候補として選択可能なように提示する候補提示手段と、
    を備えることを特徴とする文書作成支援装置。
  2. 前記候補提示手段は、前記辞書要素として確定した前記プロパティを前記文字列に代えて入力する前記辞書要素とする、
    ことを特徴とする請求項1記載の文書作成支援装置。
  3. 前記候補提示手段は、前記辞書要素として確定した前記プロパティの何れか一のアトリビュートを前記第1の文字列に代えて入力する前記辞書要素とする、
    ことを特徴とする請求項1記載の文書作成支援装置。
  4. 確定した前記辞書要素の識別子をタグとして挿入する辞書要素挿入手段を更に備える、
    ことを特徴とする請求項1ないし3のいずれか一記載の文書作成支援装置。
  5. 前記類似検索手段は、前記文字列が前記辞書に格納された前記プロパティのアトリビュートとの一致度に基づくものであって前記類似度を計算するための基準である評価点を計算する評価点計算手段を備える、
    ことを特徴とする請求項1ないし4のいずれか一記載の文書作成支援装置。
  6. 前記評価点計算手段は、前記評価点の計算に、所定領域内における前記文書に対して既に入力されている文字列と前記辞書に格納された前記プロパティのアトリビュートとの一致度も含める、
    ことを特徴とする請求項5記載の文書作成支援装置。
  7. 前記類似検索手段は、所定領域内における前記文書に対して既に入力されている文字列と前記文字列との間の距離を考慮して前記類似度を決定する、
    ことを特徴とする請求項6記載の文書作成支援装置。
  8. 前記類似検索手段は、類似検索の対象となるクラスの指定を受け付けるクラス指定手段をさらに備える、
    ことを特徴とする請求項1ないし7のいずれか一記載の文書作成支援装置。
  9. 編集対象となる文書に対してコンテンツとして記述するためのプロパティ及び当該プロパティの性質を定義するアトリビュートを有する標準辞書にて定められる辞書要素として前記文書に対する文字列の入力を受け付けて第1の文字列を確定する文字列入力手段と、
    前記文字列が前記辞書で定義された前記辞書要素の何れであることを意図したものであるかを検証するために、確からしさを表す類似度順に前記辞書要素を検索する類似検索手段と、
    検索された前記辞書要素を前記文字列に代える候補として選択可能なように提示する候補提示手段と、
    としてコンピュータを機能させることを特徴とするプログラム。
  10. 文書作成支援装置で実行される文書作成支援方法であって、
    前記文書作成支援装置は、制御部と記憶部を備え、
    前記制御部において実行される、
    文字列入力手段が、編集対象となる文書に対してコンテンツとして記述するためのプロパティ及び当該プロパティの性質を定義する詳細情報フィールドであるアトリビュートを有する標準辞書にて定められる辞書要素として前記文書に対する文字列の入力を受け付けて第1の文字列を確定するステップと、
    類似検索手段が、前記文字列が前記辞書で定義された前記辞書要素の何れであることを意図したものであるかを検証するために、確からしさを表す類似度順に前記辞書要素を検索するステップと、
    候補提示手段が、検索された前記辞書要素を前記文字列に代える候補として選択可能なように提示するステップと、
    を含むことを特徴とする文書作成支援方法。
JP2008248780A 2008-09-26 2008-09-26 文書作成支援装置、プログラムおよび文書作成支援方法 Pending JP2010079709A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008248780A JP2010079709A (ja) 2008-09-26 2008-09-26 文書作成支援装置、プログラムおよび文書作成支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008248780A JP2010079709A (ja) 2008-09-26 2008-09-26 文書作成支援装置、プログラムおよび文書作成支援方法

Publications (1)

Publication Number Publication Date
JP2010079709A true JP2010079709A (ja) 2010-04-08

Family

ID=42210060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008248780A Pending JP2010079709A (ja) 2008-09-26 2008-09-26 文書作成支援装置、プログラムおよび文書作成支援方法

Country Status (1)

Country Link
JP (1) JP2010079709A (ja)

Similar Documents

Publication Publication Date Title
US6799299B1 (en) Method and apparatus for creating stylesheets in a data processing system
US8046681B2 (en) Techniques for inducing high quality structural templates for electronic documents
JP4242848B2 (ja) 電子文書に含まれる数値データを視覚的に目立たせる方法および装置
US8959116B2 (en) Storage of a document using multiple representations
US7707498B2 (en) Specific type content manager in an electronic document
JP4869630B2 (ja) コンテンツを開始テンプレートとターゲットテンプレートとの間でマップするための方法およびシステム
JP4202041B2 (ja) 入力モードバイアスを適用するための方法およびシステム
US7197510B2 (en) Method, system and program for generating structure pattern candidates
US7814101B2 (en) Term database extension for label system
WO2021073077A1 (zh) 用于自动生成电子表格的方法、装置、设备及存储介质
US20090125529A1 (en) Extracting information based on document structure and characteristics of attributes
JP2011501847A (ja) コンピュータで実現される方法
US9152656B2 (en) Database data type creation and reuse
JP2002230021A (ja) 情報検索装置及び情報検索方法並びに記憶媒体
JP4343206B2 (ja) 構造化文書検索支援装置およびプログラム
US7596577B2 (en) Methods and systems for specifying a user interface for an application
US8639709B2 (en) Comparing very large XML data
Dahlquist Using Gen MAPP and MAPPFinder to View Microarray Data on Biological Pathways and Identify Global Trends in the Data
US20090259995A1 (en) Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
JP2010079709A (ja) 文書作成支援装置、プログラムおよび文書作成支援方法
JP2009199164A (ja) 文書管理装置、文書管理方法及び記録媒体
JP2009015511A (ja) メタデータ管理装置、プログラムおよびメタデータ管理方法
Cerami XML for Bioinformatics
JP2007148913A (ja) データ作成支援システム、データ作成支援装置およびデータ作成支援プログラム
US20210382889A1 (en) Information processing apparatus