JP6304979B2 - 知識処理装置、方法およびプログラム - Google Patents

知識処理装置、方法およびプログラム Download PDF

Info

Publication number
JP6304979B2
JP6304979B2 JP2013185634A JP2013185634A JP6304979B2 JP 6304979 B2 JP6304979 B2 JP 6304979B2 JP 2013185634 A JP2013185634 A JP 2013185634A JP 2013185634 A JP2013185634 A JP 2013185634A JP 6304979 B2 JP6304979 B2 JP 6304979B2
Authority
JP
Japan
Prior art keywords
character string
attribute
correction target
name
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013185634A
Other languages
English (en)
Other versions
JP2015052933A (ja
Inventor
篤弘 吉田
篤弘 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2013185634A priority Critical patent/JP6304979B2/ja
Priority to CN201410346227.1A priority patent/CN104424350B/zh
Publication of JP2015052933A publication Critical patent/JP2015052933A/ja
Application granted granted Critical
Publication of JP6304979B2 publication Critical patent/JP6304979B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context

Description

本発明の実施形態は、知識辞書を用いて文字列の修正を行う知識処理装置、方法およびプログラムに関する。
例えば、OCR(Optical Character Recognition/Reader)などによって文字認識された文字列を修正して正解に近づけるための技術として、知識処理が知られている。知識処理は、修正の対象となる文字列(以下、修正対象文字列という)を予め用意した知識辞書(単語辞書)と照合し、必要に応じて、修正対象文字列を知識辞書に格納された文字列(単語)により置換することで、修正対象文字列に対する修正を行う。例えば、修正対象文字列が姓名の姓を表す文字列であれば、修正対象文字列を、姓に使用される多数の単語を格納した知識辞書と照合し、適合するものがあれば修正対象文字列を置換する。
しかし、従来の知識処理では、知識辞書から修正対象文字列を置換する文字列を適切に絞り込めずに、十分な修正精度が得られない場合が多く、精度の向上が求められている。
特開2001−256439号公報 特開2006−65477号公報 特開2008−225695号公報 特開平3−271884号公報
本発明が解決しようとする課題は、知識辞書を用いた文字列の修正を精度よく行うことができる知識処理装置、方法およびプログラムを提供することである。
実施形態の知識処理装置は、知識辞書を用いて文字列の修正を行う知識処理装置であって、選択部と、生成部と、修正部と、を備える。選択部は、複数の文字列を含み、文字列ごとに該文字列の属性が付された文書データから、修正対象文字列を選択する。生成部は、前記文書データ中の前記修正対象文字列とは属性が異なる他の文字列に基づいて、前記修正対象文字列を置換する置換文字列の候補を取得する条件を生成する。修正部は、前記条件に従って前記知識辞書から取得された前記置換文字列の候補を用いて、前記修正対象文字列に対する修正を行う。
図1は、実施形態の知識処理装置のハードウェア構成例を示すブロック図である。 図2は、実施形態の知識処理装置の機能的な構成例を示すブロック図である。 図3は、文書データの一例を示す図である。 図4は、知識辞書の一例を示す図である。 図5は、置換文字列を特定する様子を模式的に示す図である。 図6は、置換文字列を一意に特定できない例を説明する図である。 図7は、置換文字列を一意に特定できない例を説明する図である。 図8は、「住所」属性の条件生成用文字列に基づいて「姓」属性の修正対象文字列を置換する置換文字列の候補を取得するための候補取得条件を生成する例を説明する図である。 図9は、「生年月日」属性の条件生成用文字列に基づいて「名」属性の修正対象文字列を置換する置換文字列の候補を取得するための候補取得条件を生成する例を説明する図である。 図10は、候補取得条件に従って取得された置換文字列の候補を用いて置換文字列を絞り込む様子を模式的に示す図である。 図11は、候補取得条件に従って取得された置換文字列の候補を用いて置換文字列を絞り込む様子を模式的に示す図である。 図12は、置換文字列の候補をユーザに提示する場合の提示例を示す図である。 図13は、置換文字列の候補をユーザに提示する場合の提示例を示す図である。 図14は、実施形態の知識処理装置による処理手順の一例を示すフローチャートである。 図15は、優先度が高い候補取得条件に従って取得された置換文字列の候補を優先的に用いて修正対象文字列に対する修正を行う様子を模式的に示す図である。 図16は、優先度に従って置換文字列の絞り込みを行う手順の一例を示すフローチャートである。 図17は、優先度に従って置換文字列の絞り込みを行う手順の他の一例を示すフローチャートである。 図18は、「姓」属性の修正対象文字列に隣接する「名」属性の文字列を条件生成用文字列に用いて置換文字列の候補を取得する例を模式的に示す図である。 図19は、姓名の男女差を説明する図である。 図20は、姓名の男女差を利用して置換文字列の絞り込みを行う例を説明する図である。
以下、実施形態の知識処理装置、方法およびプログラムを、図面を参照して詳細に説明する。以下で示す実施形態では、OCRにより文字認識された文字列の修正を行う例を想定している。しかし、実施形態の知識処理装置により修正される文字列は、OCRにより文字認識されたものに限らない。実施形態の知識処理装置は、知識辞書を用いて文字列の修正を行う場合に広く適用できる。
図1は、実施形態の知識処理装置のハードウェア構成例を示すブロック図である。図1に示すように、実施形態の知識処理装置10は、通常のコンピュータとしてのハードウェア構成を採用することができる。すなわち、知識処理装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ハードディスクドライブ、CD(Compact Disc)ドライブ、DVD(Digital Versatile Disc)ドライブ、フラッシュメモリなどの補助記憶装置14、これらを接続するバス15などを備える。また、知識処理装置10には、液晶ディスプレイなどの表示装置16と、キーボードやマウスなどの入力装置17とが、有線または無線により接続されている。
図2は、実施形態の知識処理装置10の機能的な構成例を示すブロック図である。知識処理装置10は、例えば、CPU11がRAM13をワークエリアとして利用し、ROM12や補助記憶装置14などに格納されたプログラムを実行することによって、図2に示すように、入力部101、提示部102、受付部103、選択部104、特定部105、生成部106、修正部107、および出力部108の機能的な構成要素を実現する。
入力部101は、文書データDを入力する。文書データDは、複数の文字列を含み、各文字列にその属性が付されたデータである。文字列は、全体として意味を持つ文字の集合(単語など)である。属性は、文字列の意味の種別であり、例えば、姓名の「姓」属性、姓名の「名」属性、「住所」属性、「生年月日」属性などが挙げられる。文書データDは、文字列とその属性の他、文字列に関連するその他の情報を含んでいてもよい。本実施形態では、文書データDとして、OCRにより文字認識された文字列を含むものを用いる。この場合、文書データDに含まれるその他の情報としては、文字列を構成する各文字に対する文字認識の結果として得られた候補文字群などが挙げられる。
図3は、文書データDの一例を示す図である。図3に示す文書データDは、文字列として「鈴木」、「太郎」、「1970年6月15日」、「東京都府中市・・・」などを含む。文字列「鈴木」には、属性として「姓」、文字列「太郎」には、属性として「名」、文字列「1970年6月15日」には、属性として「生年月日」、文字列「東京都府中市・・・」には、属性として「住所」がそれぞれ付されている。また、各文字列に関連するその他の情報として、文字列を構成する各文字の候補文字群などを含んでいる。
なお、本実施形態では、文字列ごとに予め属性が付された文書データDを入力するものとしているが、文書データDに含まれる各文字列の属性を、知識処理装置10の内部で与えるように構成してもよい。例えば、自然言語処理の意味解析を知識処理装置10の内部で実行することにより、文書データDに含まれる各文字列の属性を判定することができる。
提示部102は、表示装置16を用いて、各種の情報をユーザに提示する。例えば、提示部102は、入力部101が入力した文書データDを表示装置16に表示してユーザに提示することができる。この場合、ユーザは、提示された文書データDを参照しながら、文書データDに含まれる複数の文字列の中から修正対象文字列を指定する操作や、後述する候補取得条件を生成するために用いる文字列(以下、条件生成用文字列という。)を指定する操作などを行うことができる。また、提示部102は、後述するように、表示装置16を用いて、修正対象文字列を置換する置換文字列の候補をユーザに提示するようにしてもよい。
受付部103は、ユーザが入力装置17を用いて行う入力操作(ユーザ操作)を受け付ける。例えば、ユーザが入力装置17を用いて、文書データDに含まれる任意の文字列を修正対象文字列として指定する操作を行うと、受付部103は、このユーザ操作を受け付けて、修正対象文字列の指定を選択部104に渡す。また、ユーザが入力装置17を用いて、文書データDに含まれる任意の文字列を条件生成用文字列として指定する操作を行うと、受付部103は、このユーザ操作を受け付けて、条件生成用文字列の指定を生成部106に渡す。
選択部104は、入力部101が入力した文書データDから、修正対象文字列を選択する。例えば、受付部103が修正対象文字列を指定するユーザ操作を受け付けた場合、選択部104は、ユーザにより指定された文字列を修正対象文字列として選択する。なお、選択部104は、ユーザの指定によらずに、予め定めた規則に従って文書データDから修正対象文字列を選択するようにしてもよい。例えば、予め定めた属性の文字列を順次、修正対象文字列として選択するといった方法や、文書データDに含まれるすべての文字列を順次、修正対象文字列として選択するといった方法などが考えられる。
特定部105は、知識辞書Nを用いて、選択部104により選択された修正対象文字列を置換する置換文字列を特定する処理を行う。
図4は、知識辞書Nの一例を示す図である。知識辞書Nは、知識として獲得された多数の情報を記憶する。知識辞書Nに含まれる情報は、複数のデータベース(DB)に分類されている。各データベースは、概ね、文書データDに含まれる文字列に付された属性に対応している。例えば、図4に示す知識辞書Nには、「姓」属性に対応する姓DB、「名」属性に対応する名DB、「住所」属性に対応する住所DBなどが含まれる。なお、知識辞書Nは、例えば補助記憶装置14などに予め格納されている。あるいは、知識処理装置10の外部の知識辞書Nを利用してもよい。
特定部105は、選択部104により選択された修正対象文字列の属性に対応するデータベースを知識辞書Nから呼び出し、修正対象文字列をそのデータベースと照合して、置換文字列の特定を試みる。例えば、修正対象文字列の属性が「姓」属性の場合、特定部105は、知識辞書Nから姓DBを呼び出す。そして、特定部105は、修正対象文字列の各文字の候補文字群(パターンマッチングなどの文字認識により認識候補として取得された文字群)を含めた文字の組み合わせを求め、その組み合わせに一致する姓の文字列が姓DBに1つのみ存在する場合、その文字列を置換文字列として特定する。なお、修正対象文字列の各文字の候補文字群は、例えば、対応する文字(修正対象文字列に含まれる文字)に対する類似度(文字認識結果である各候補に与えられる「その文字(=答え)らしさ」の値、例えばユークリッド距離)が高い順に順位付けされた情報として与えられる。
図5は、特定部105が置換文字列を特定する様子を模式的に示す図である。図5の例では、修正対象文字列として、「姓」属性の文字列「佐薄」が選択されている。また、1文字目の「佐」に対応する候補文字群として「左」、「低」、・・・が与えられ、2文字目の「薄」に対応する候補文字群として「藤」、「薩」、・・・が与えられているものとする。この場合、特定部105は、知識辞書Nから姓DBを呼び出し、1文字目の「佐」、「左」、「低」、・・・と、2文字目の「薄」、「藤」、「薩」、・・・との組み合わせを求め、それぞれの組み合わせの文字列が姓DBに存在するか否かを判定する。図5の例では、求めた組み合わせの文字列のうち、「佐藤」のみが姓DBに存在している。この場合、特定部105は、修正対象文字列「佐薄」を置換する置換文字列として、文字列「佐藤」を一意に特定することができる。
図6および図7は、特定部105が置換文字列を一意に特定できない例を説明する図である。図6の例では、修正対象文字列として、「姓」属性の文字列「蒲地」が選択されている。また、1文字目の「蒲」に対応する候補文字群として「蓮」、「薄」、「薙」、・・・が与えられ、2文字目の「地」に対応する候補文字群として「池」、「也」、「他」、・・・が与えられているものとする。この場合、特定部105は、知識辞書Nから姓DBを呼び出し、1文字目の「蒲」、「蓮」、「薄」、「薙」、・・・と、2文字目の「地」、「池」、「也」、「他」、・・・との組み合わせを求め、それぞれの組み合わせの文字列が姓DBに存在するか否かを判定する。図6の例では、求めた組み合わせの文字列のうち、「蒲池」、「蒲地」、「蓮池」の3つが姓DBに存在している。この場合、特定部105は、修正対象文字列「蒲地」を置換する置換文字列を一意に特定することができない。
図7の例では、修正対象文字列として、「名」属性の文字列「富子」が選択されている。また、1文字目の「富」に対応する候補文字群として「聖」、「宿」、「雪」、・・・が与えられているものとする。この場合、特定部105は、知識辞書Nから名DBを呼び出し、1文字目の「富」、「聖」、「宿」、「雪」、・・・と、2文字目の「子」との組み合わせを求め、それぞれの組み合わせの文字列が名DBに存在するか否かを判定する。図7の例では、求めた組み合わせの文字列のうち、「富子」、「聖子」、「雪子」の3つが名DBに存在している。この場合、特定部105は、修正対象文字列「富子」を置換する置換文字列を一意に特定することができない。
特定部105は、置換文字列を一意に特定できた場合は、特定した置換文字列を修正部107に渡す。この場合、修正部107は、選択部104により選択された修正対象文字列を、特定部105により特定された置換文字列で置換することにより、修正対象文字列の修正を行う。
一方、修正対象文字列を置換する置換文字列を一意に特定できなかった場合、特定部105は、置換文字列が特定できない旨を生成部106に通知する。
なお、上述した特定部105の処理はあくまで一例であり、特定部105が置換文字列の特定を行う方法は上述した例に限らない。特定部105は、従来の知識処理で用いられる様々な方法を用いて、修正対象文字列を置換する置換文字列の特定を行うことができる。
生成部106は、例えば、特定部105が修正対象文字列を置換する置換文字列を一意に特定できなかった場合に、条件生成用文字列に基づいて、置換文字列の候補を取得する条件(以下、候補取得条件という。)を生成する。条件生成用文字列は、文書データDに含まれる文字列であって、修正対象文字列とは属性が異なる他の文字列である。条件生成用文字列は、上述したようにユーザ操作により指定された文字列であってもよいし、修正対象文字列の属性に対して予め定められた他の属性を持つ文字列であってもよい。例えば、処理対象文字列の属性が「姓」であれば、「住所」属性が付された文字列を条件生成用文字列として用いるといった規則や、処理対象文字列の属性が「名」であれば、「生年月日」属性が付された文字列を条件生成用文字列として用いるといった規則を定めておき、この規則に従って条件生成用文字列を決定することができる。
図8は、生成部106が「住所」属性の条件生成用文字列に基づいて「姓」属性の修正対象文字列を置換する置換文字列の候補を取得するための候補取得条件を生成する例を説明する図である。条件生成用文字列の属性が「住所」であり、修正対象文字列の属性が「姓」である場合、生成部106は、例えば、条件生成用文字列を解析してその住所で示される地域を特定し、その地域特有の姓のリストを取得するといった候補取得条件を生成することができる。図8の例では、生成部106が、「住所」属性の条件生成用文字列から「沖縄」を特定し、「沖縄」に特有の姓のリストを取得するための候補取得条件を生成した例を示している。この例の場合、候補取得条件に従って知識辞書Nから取得される「沖縄」に特有の姓のリストに含まれる文字列が、置換文字列の候補となる。
図9は、生成部106が「生年月日」属性の条件生成用文字列に基づいて「名」属性の修正対象文字列を置換する置換文字列の候補を取得するための候補取得条件を生成する例を説明する図である。条件生成用文字列の属性が「生年月日」であり、修正対象文字列の属性が「名」である場合、生成部106は、例えば、条件生成用文字列を解析して生まれ年を特定し、生まれ年の人気名のリストを取得するといった候補取得条件を生成することができる。図9の例では、生成部106が、「生年月日」属性の条件生成用文字列から生まれ年として「1980年」を特定し、「1980年」の人気名のリストを取得するための候補取得条件を生成した例を示している。この例の場合、候補取得条件に従って知識辞書Nから取得される「1980年」の人気名のリストに含まれる文字列が、置換文字列の候補となる。
同じく、条件生成用文字列の属性が「生年月日」であり、修正対象文字列の属性が「名」である場合、生成部106は、例えば、条件生成用文字列を解析して生まれ年の干支を特定し、生まれ年の干支にちなんだ名前のリストを取得するといった候補取得条件を生成することもできる。図9の例では、生成部106が、「生年月日」属性の条件生成用文字列から生まれ年の干支として「辰」を特定し、「辰」にちなんだ名前のリストを取得する候補取得条件を生成した例を示している。この例の場合、候補取得条件に従って知識辞書Nから取得される「辰」にちなんだ名前のリストに含まれる文字列が、置換文字列の候補となる。
同じく、条件生成用文字列の属性が「生年月日」であり、修正対象文字列の属性が「名」である場合、生成部106は、例えば、条件生成用文字列を解析して季節を特定し、季節にちなんだ名前のリストを取得するといった候補取得条件を生成することもできる。図9の例では、生成部106が、「生年月日」属性の条件生成用文字列から季節として「冬」を特定し、「冬」にちなんだ名前のリストを取得する候補取得条件を生成した例を示している。この例の場合、候補取得条件に従って知識辞書Nから取得される「冬」にちなんだ名前のリストに含まれる文字列が、置換文字列の候補となる。
なお、図9の例のように、生成部106が1つの条件生成用文字列に基づいて複数の候補取得条件が生成できる場合は、これら複数の候補取得条件をすべて用いて置換文字列の候補を取得するようにしてもよいし、複数の候補取得条件のうち、例えばユーザ操作により指定された候補取得条件を用いて置換文字列の候補を取得するようにしてもよい。
なお、上述した候補取得条件はあくまで一例であり、これに限らない。生成部106は、修正対象文字列とは属性が異なる条件生成用文字列に基づいて、修正対象文字列を置換する置換文字列の候補を取得するための様々な候補取得条件を生成することができる。
修正部107は、選択部104により選択された修正対象文字列に対する修正を行う。例えば、修正部107は、上述したように特定部105によって修正対象文字列を置換する置換文字列が一意に特定された場合は、特定された置換文字列により修正対象文字列を置換することによって、修正対象文字列を修正する。
また、修正部107は、修正対象文字列を置換する置換文字列が一意に特定されず、生成部106が候補取得条件を生成した場合には、生成部106が生成した候補取得条件に従って、知識辞書Nから置換文字列の候補(リスト)を取得する。そして、修正部107は、候補取得条件に従って取得された置換文字列の候補(リスト)を用いて、修正対象文字列に対する修正を行う。例えば、修正部107は、候補取得条件に従って取得された置換文字列の候補(リスト)を用いて置換文字列を絞り込み、絞り込んだ置換文字列により修正対象文字列を置換することによって、修正対象文字列を修正する。
なお、候補取得条件に応じた置換文字列の候補(リスト)は、知識辞書N内の修正対象文字列の属性に対応したデータベースから取得するようにしてもよいし、専用のデータベースを知識辞書N内に別途設けて、この専用のデータベースから取得するようにしてもよい。専用のデータベースとしては、例えば、地域に特有の姓を地域と対応付けて記憶したデータベース、生まれ年の人気名を年別に記憶したデータベース、干支にちなんだ名前を干支ごとに記憶したデータベース、季節にちなんだ名前を季節ごとに記憶したデータベースなどが挙げられる。また、候補取得条件に応じた置換文字列の候補(リスト)を修正対象文字列の属性に対応したデータベースから取得する場合は、属性ごとのデータベースを、候補取得条件に従って情報を抽出できるリレーショナルデータベースの形式としておけばよい。
図10および図11は、修正部107が候補取得条件に従って取得された置換文字列の候補(リスト)を用いて置換文字列を絞り込む様子を模式的に示す図である。なお、図10の例は図6に示した例に対応し、図11の例は図7に示した例に対応している。
図10の例では、「姓」属性の修正対象文字列である「蒲地」に対し、「住所」属性の条件生成用文字列に基づいて候補取得条件が生成され、条件生成用文字列で示される地域に特有の姓のリストが置換文字列の候補として取得されている。図6に示した例では、上述したように、候補文字群を含めた文字の組み合わせのうち、「蒲池」、「蒲地」、「蓮池」の3つが姓DBに存在しているため、特定部105が置換文字列を一意に特定できなかった。しかし、候補取得条件に従って置換文字列の候補として取得された地域特有の姓のリストが「蒲池」を含み、「蒲地」と「蓮池」を含んでいなければ、置換文字列を「蒲池」に絞り込むことができる。この場合、修正部107は、絞り込まれた置換文字列である「蒲池」により修正対象文字列である「蒲地」を置換することによって、修正対象文字列を修正することができる。
図11の例では、「名」属性の修正対象文字列である「富子」に対し、「生年月日」属性の条件生成用文字列に基づいて候補取得条件が生成され、条件生成用文字列で示される季節にちなんだ名前のリストが置換文字列の候補として取得されている。図7に示した例では、上述したように、候補文字群を含めた文字の組み合わせのうち、「富子」、「聖子」、「雪子」の3つが名DBに存在しているため、特定部105が置換文字列を一意に特定できなかった。しかし、候補取得条件に従って置換文字列の候補として取得された季節にちなんだ名前のリストが「雪子」を含み、「富子」と「聖子」を含んでいなければ、置換文字列を「雪子」に絞り込むことができる。この場合、修正部107は、絞り込まれた置換文字列である「雪子」により修正対象文字列である「富子」を置換することによって、修正対象文字列を修正することができる。
なお、修正部107は、絞り込まれた置換文字列により修正対象文字列をそのまま置換するのではなく、提示部102により置換文字列の候補をユーザに提示させ、提示した置換文字列の候補を選択するユーザ操作を受付部103が受け付けた場合に、選択された置換文字列の候補により修正対象文字列を置換するようにしてもよい。
図12および図13は、提示部102が置換文字列の候補をユーザに提示する場合の提示例を示す図である。なお、図12の例は図10に示した例に対応し、図13の例は図11に示した例に対応している。図12および図13に示すように、提示部102は、例えば、置換文字列の候補を修正対象文字列とともに表示装置16に表示して、ユーザに提示することができる。この際、提示する置換文字列の候補のうち、生成部106が生成した候補取得条件に従って知識辞書Nから取得された置換文字列の候補を最上位に表示したり、ハイライト表示したりすることで、ユーザが選択しやすくすることが望ましい。
なお、図12および図13に示した例はあくまで一例であり、提示部102は、この例に限らず、様々な方法で置換文字列の候補をユーザに提示することができる。
出力部108は、修正部107が修正対象文字列を修正した後の文書データD’を出力する。文書データD’の出力形式は任意である。例えば、表示装置16への表示であってもよいし、テキストファイルとして出力してもよい。なお、文書データD’は、文字列のみを含んでいればよく、各文字列に付与した属性やその他の情報は削除した状態で出力してもよい。
次に、実施形態の知識処理装置10の動作を説明する。図14は、知識処理装置10による処理手順の一例を示すフローチャートである。知識処理装置10は、例えば、図14のフローチャートで示す一連の処理手順に従って動作する。
知識処理装置10が動作を開始すると、まず、入力部101が、文書データDを入力する(ステップS101)。次に、選択部104が、ステップS101で入力された文書データDから修正対象文字列を選択する(ステップS102)。
次に、特定部105が、ステップS102で選択された処理対象文字列を知識辞書Nと照合する(ステップS103)。そして、この知識辞書Nとの照合の結果、処理対象文字列を置換する置換文字列が一意に特定されたか否かを確認し(ステップS104)、置換文字列が一意に特定された場合は(ステップS104:Yes)、修正部107が、特定された置換文字列により修正対象文字列を置換する(ステップS105)。
一方、置換文字列が一意に特定されない場合は(ステップS104:No)、生成部106が、ステップS101で入力された文書データ中の処理対象文字列とは属性が異なる条件生成用文字列に基づいて、候補取得条件を生成する(ステップS106)。
そして、修正部107が、ステップS106で生成された候補取得条件に従って知識辞書Nから置換文字列の候補(リスト)を取得し(ステップS107)、取得した置換文字列の候補(リスト)を用いて置換文字列の絞り込みを行う(ステップS108)。その後、修正部107は、ステップS108で絞り込んだ置換文字列により修正対象文字列を置換する(ステップS109)。
次に、ステップS101で入力した文書データDに対する修正が完了したか否かを確認し(ステップS110)、修正が完了していなければ(ステップS110:No)、ステップS102に戻って以降の処理を繰り返す。一方、文書データDに対する修正が完了したら(ステップS110:Yes)、出力部108が、修正された文書データD’を出力し(ステップS111)、一連の処理が終了する。
以上、具体的な例を挙げながら詳細に説明したように、実施形態の知識処理装置10は、文書データD中の修正対象文字列とは属性が異なる条件生成用文字列に基づいて、修正対象文字列を置換する置換文字列の候補を取得するための候補取得条件を生成する。そして、生成した候補取得条件に従って知識辞書Nから置換文字列の候補を取得し、取得した置換文字列の候補を用いて修正対象文字列に対する修正を行う。したがって、単に修正対象文字列を知識辞書Nと照合して修正対象文字列の修正を行う場合と比較して、文字列の修正を精度よく行うことができる。
なお、修正対象文字列以外の文字列を用いて修正対象文字列の修正を行う方法としては、例えば、郵便番号を用いて住所の文字列を修正するという方法が知られている。しかし、この方法は、修正対象文字列と一対一に対応する情報を用いるため、一対一に対応する情報が存在しない文字列に対して適用することができない。これに対して、本実施形態の知識処理装置10は、文書データD中の条件生成用文字列に基づいて候補取得条件を生成し、この候補取得条件に従って知識辞書Nから取得された置換文字列の候補を用いて修正対象文字列の修正を行う構成であるため、様々な文字列に対して精度のよい修正を行うことができる。
また、本実施形態の知識処理装置10では、特定部105が修正対象文字列を置換する置換文字列を一意に特定できなかった場合に生成部106が候補取得条件を生成し、修正部107が候補取得条件に従って知識辞書Nから取得された置換文字列の候補を用いて修正対象文字列の修正を行う構成とすることで、より精度のよい文字列の修正を効率よく行うことができる。
また、本実施形態の知識処理装置10では、置換文字列の候補をユーザに提示し、ユーザにより選択された置換文字列の候補により修正対象文字列を置換する構成とすることで、文字列の修正を正確に行うことができる。
また、本実施形態の知識処理装置10では、修正対象文字列や条件生成用文字列をユーザに指定させる構成とすることで、ユーザの意向に沿った文字列の修正を効率よく行うことができる。
(変形例1)
実施形態の知識処理装置10は、特定部105を備えない構成としてもよい。つまり、知識処理装置10は、修正対象文字列を知識辞書Nと照合して置換文字列を特定する処理を行わず、候補取得条件に従って知識辞書Nから取得される置換文字列の候補のみを用いて、修正対象文字列に対する修正を行うようにしてもよい。この場合、例えば、候補取得条件に従って知識辞書Nから取得される置換文字列の候補に対して修正対象文字列との類似度を求め、類似度によって置換文字列の絞り込みを行う。これにより、置換文字列の絞り込みを適切に行って、修正対象文字列に対する修正を精度よく行うことができる。
(変形例2)
実施形態の知識処理装置10は、生成部106が複数の候補取得条件を生成した場合に、提示部102が生成された複数の候補取得条件をユーザに提示し、複数の候補取得条件のそれぞれに対する優先度を指定するユーザ操作を受付部103が受け付ける構成としてもよい。この場合、修正部107は、複数の候補取得条件に従って知識辞書Nから各々取得された置換文字列の候補のうち、優先度が高い候補取得条件に従って取得された置換文字列の候補を優先的に用いて、修正対象文字列に対する修正を行う。
複数の候補取得条件は、1つの条件生成用文字列に基づいて生成部106が生成したものであってもよいし、複数の条件生成用文字列に基づいて生成部106が生成したものであってもよい。また、生成部106が生成する複数の候補取得条件の数とその内容を、ユーザが優先度とともに指定する構成としてもよい。
図15は、修正部107が、優先度が高い候補取得条件に従って取得された置換文字列の候補を優先的に用いて修正対象文字列に対する修正を行う様子を模式的に示す図である。図15の例では、「名」属性の文字列「大揮」が修正対象文字列として選択されており、2文字目の「揮」に対応する候補文字群として「輝」、「樹」、・・・が与えられている。ここで、複数の候補取得条件に従って、知識辞書Nから名前のリストが複数取得され、優先度が最も高い候補取得条件に従って取得されたリストを優先度1のリスト、次に優先度が高い候補取得条件に従って取得されたリストを優先度2のリストとする。優先度1のリストには、文字列「大輝」が含まれ、優先度2のリストには、文字列「大樹」が含まれている。
図15の例の場合、修正対象文字列の候補文字群を含めた文字の組み合わせのうち、「大輝」と「大樹」が置換文字列の候補となるが、修正部107は、優先度2のリストに含まれている「大樹」よりも、優先度1のリストに含まれている「大輝」を優先し、この文字列「大輝」により修正対象文字列である「大揮」を置換することによって、修正対象文字列を修正することができる。
図16は、優先度に従って置換文字列の絞り込みを行う手順の一例を示すフローチャートである。複数の候補取得条件に従って知識辞書Nから複数のリストを取得した場合、修正部107は、例えば図16のフローチャートで示す手順に従って、置換文字列の絞り込みを行うことができる。
修正部107は、まず、優先度X=1を代入し(ステップS201)、修正対象文字列を優先度Xのリストと照合する(ステップS202)。優先度Xは、リストの取得に用いた候補取得条件に対してユーザが指定した優先度に対応している。
次に、修正部107は、修正対象文字列に適合する候補が優先度Xのリストに含まれているか否か、具体的には例えば、修正対象文字列の候補文字群を含めた文字の組み合わせのうちのいずれかが、優先度Xのリストに含まれているか否かを判定する(ステップS203)。そして、修正対象文字列に適合する候補が優先度Xのリストに含まれていれば(ステップS203:Yes)、修正部107は、その候補を置換文字列として用いて、修正対象文字列をその候補で置換し(ステップS204)、一連の処理を終了する。
なお、1つのリストから修正対象文字列に適合する候補が複数取得された場合には、例えば、これら複数の候補のうち、修正対象文字列に対する各文字の類似度(修正対象文字列に含まれる文字に一致する文字は、文字ごとの類似度が最大値となる)の合計が最も高くなる候補を置換文字列として選択し、修正対象文字列に対する修正を行えばよい。
一方、修正対象文字列に適合する候補が優先度Xのリストに含まれていなければ(ステップS203:No)、修正部107は、優先度Xの値をインクリメントし(ステップS205)、優先度Xの値が、知識辞書Nから取得したリストの数(リスト数)より大きいか否かを判定する(ステップS206)。そして、優先度Xの値がリスト数以下であれば(ステップS206:No)、ステップS202に戻って以降の処理を繰り返す。一方、優先度Xの値がリスト数より大きければ(ステップS206:Yes)、一連の処理を終了する。
なお、以上の例では、優先度が高いリストから順に修正対象文字列の照合を行い、修正対象文字列に適合する候補が見つかった時点でリストに対する修正対象文字列の照合を終了し、得られた候補を置換文字列として用いて修正対象文字列に対する修正を行うようにしている。しかし、修正対象文字列に適合する候補が見つかった時点でリストに対する修正対象文字列の照合を終了するのではなく、各リストから得られた候補に対してリストの優先度を用いてスコア(リスト記載の各候補に与えられる、リストにおける「答えらしさ」の値)を算出し、最終的に最も高いスコアが与えられた候補を置換文字列として選択して、修正対象文字列に対する修正を行うようにしてもよい。
図17は、優先度に従って置換文字列の絞り込みを行う手順の他の例を示すフローチャートであり、リストから得られた候補ごとにスコアを与える例である。修正部107は、この図17のフローチャートで示す手順に従って、置換文字列の絞り込みを行うようにしてもよい。
修正部107は、まず、優先度X=1を代入し(ステップS301)、修正対象文字列を優先度Xのリストと照合する(ステップS302)。優先度Xは、リストの取得に用いた候補取得条件に対してユーザが指定した優先度に対応している。
次に、修正部107は、修正対象文字列に適合する候補が優先度Xのリストに含まれているか否か、具体的には例えば、修正対象文字列の候補文字群を含めた文字の組み合わせのうちのいずれかが、優先度Xのリストに含まれているか否かを判定する(ステップS303)。そして、修正対象文字列に適合する候補が優先度Xのリストに含まれていれば(ステップS303:Yes)、修正部107は、その候補に対するスコアを計算する(ステップS304)。
候補に対するスコアは、例えば、その候補を含むリストの優先度が高いほど大きな値をとる重みと、その候補の修正対象文字列に対する類似度と、を掛け合わせた値を用いることができる。また、候補に対するスコアは、例えば、上記の重みと、その候補のリスト内の順位と、を掛け合わせた値を用いてもよい。この場合、候補のリスト内の順位は、例えば、リストに対応する候補取得条件への適合度などに応じて定められる。また、上記の重みのみを候補に対するスコアとして用いてもよい。また、複数のリストで同じ候補が見つかった場合は、リストごとに算出されたその候補のスコアを合算して、最終的なスコアとしてもよい。
一方、修正対象文字列に適合する候補が優先度Xのリストに含まれていなければ(ステップS303:No)、修正部107は、ステップS304のスコアの計算を行うことなく、ステップS305に進む。
次に、修正部107は、優先度Xの値をインクリメントし(ステップS305)、優先度Xの値が、知識辞書Nから取得したリストの数(リスト数)より大きいか否かを判定する(ステップS306)。そして、優先度Xの値がリスト数以下であれば(ステップS306:No)、ステップS302に戻って以降の処理を繰り返す。一方、優先度Xの値がリスト数より大きければ(ステップS306:Yes)、以上の処理で得られた候補のうち、最大スコアの候補を置換文字列として用いて、修正対象文字列をその候補で置換し(ステップS307)、一連の処理を終了する。
なお、以上の例では、候補取得条件に従って知識辞書Nから取得されるすべてのリストを使用するものとして説明したが、使用するリストの数に制限を設け、例えば優先度が高い順からY個のリストを対象として図17に示す処理を行うようにしてもよい。この場合、上記ステップS306の処理は、優先度Xの値がYよりも大きいか否かを判定する処理となる。
また、使用するリストの優先度Xに対して閾値を設け、優先度Xの値が閾値よりも小さいリスト(優先度Xが閾値と一致するリストよりも優先されるリスト)を対象として図17に示す処理を行うようにしてもよい。また、このときの閾値を、すでに得られた候補のスコアに応じて動的に変化させるようにしてもよい。例えば、修正対象文字列の1位候補の類似度が800点以上で、2位候補と100点以上離れており修正する必要性が高くないと考えられるような場合は、より信用できるリストのみを使うようにするためにリストの優先度Xに対する閾値を4とし、優先度Xの値が4以上のリストを処理の対象から除外してもよい。この場合、上記ステップS306の処理は、優先度Xの値がY以上か否かを判定する処理となる。
以上のように、本変形例の知識処理装置10では、優先度が高い候補取得条件に従って取得された置換文字列の候補を優先的に用いて修正対象文字列に対する修正を行うようにしているので、置換文字列の絞り込みをより適切に行って、修正対象文字列に対する修正を精度よく行うことができる。
(変形例3)
実施形態の知識処理装置10は、修正対象文字列の属性が「姓」属性である場合には、この処理対象文字列に隣接する「名」属性の文字列を条件生成用文字列として用いて候補取得条件を生成し、修正対象文字列の属性が「名」属性である場合には、この処理対象文字列に隣接する「姓」属性の文字列を条件生成用文字列として用いて候補取得条件を生成するように構成してもよい。
「姓」属性の文字列とこれに隣接する「名」属性の文字列は、同一人物を表す文字列であり、その人物の国籍や性別などによって両者に相関がある場合が多い。例えば、「姓」属性の文字列が固有の国に特有の姓を表すものであれば、「名」属性の文字列もその国に固有の名前を表していることが想定される。また、「姓」属性の文字列が女性に特有の姓を表すものであれば、「名」属性の文字列も女性に特有の名前を表していることが想定される。このため、修正対象文字列の属性が「姓」属性である場合、この処理対象文字列に隣接する「名」属性の文字列は、修正対象文字列を置換する置換文字列の候補を絞り込む上で有益な情報となり得る。また、修正対象文字列の属性が「名」属性である場合、この処理対象文字列に隣接する「姓」属性の文字列は、修正対象文字列を置換する置換文字列の候補を絞り込む上で有益な情報となり得る。
図18は、「姓」属性の修正対象文字列に隣接する「名」属性の文字列を条件生成用文字列に用いて置換文字列の候補を取得する例を模式的に示す図である。図18の例では、「姓」属性の文字列「Kavfman」が修正対象文字列として選択されている。この場合、生成部106は、「Kavfman」に隣接する「名」属性の文字列「Jacob」を条件生成用文字列として用いる。
生成部106は、まず、条件生成用文字列である「Jacob」を知識辞書Nと照合し、一致する文字列を検索する。ここで、知識辞書Nには、各国に固有の名前を集めたリストや、各国に固有の姓を集めたリストが含まれているものとする。そして、「Jacob」がユダヤ人に特有の名前を集めた「ユダヤ人名前リスト」に含まれている場合、生成部106は、例えば、ユダヤ人に固有の姓のリストを取得するといった候補取得条件を生成する。この場合、修正部107は、生成部106が生成した候補取得条件に従って「ユダヤ人姓リスト」を知識辞書Nから取得し、この「ユダヤ人姓リスト」を用いて、修正対象文字列である「Kavfman」に対する修正を行う。図18の例では、知識辞書Nから取得した「ユダヤ人姓リスト」に含まれる「Kaufman」により修正対象文字列の「Kauvman」が置換され、修正される。
図19は、姓名の男女差を説明する図であり、ロシア人の姓名の男女差を示している。図19に示すように、ロシア人の姓名は、男性と女性とで、その末尾(特に姓の末尾)が別々に変化する。
図20は、姓名の男女差を利用して置換文字列の絞り込みを行う例を説明する図である。図20の例では、「名」属性の文字列「Yulii」が修正対象文字列として選択されており、5文字目の「i」に対応する候補文字群として「j」、「l」、「f」、「a」・・・が与えられている。この場合、生成部106は、「Yulii」に隣接する「姓」属性の文字列「Ivanova」を条件生成用文字列として用いる。
生成部106は、条件生成用文字列である「Ivanova」から、この「Ivanova」で表される人物が女性であると判定し、女性名のリストを取得するといった候補取得条件を生成する。この場合、修正部107は、生成部106が生成した候補取得条件に従って「女性名リスト」を知識辞書Nから取得し、この「女性名リスト」を用いて、修正対象文字列「Yulii」の5文字目の候補文字を「a」に限定する。これにより、置換文字列が「Yulia」に絞り込まれ、修正対象文字列「Yulii」が「Yulia」に置換される。
以上のように、本変形例の知識処理装置10では、隣接する「姓」属性の文字列と「名」属性の文字列のうち、一方が修正対象文字列として選択された場合は、他方を条件生成用文字列に用いて候補取得条件を生成し、この候補取得条件に従って知識辞書Nから取得された置換文字列の候補を用いて、修正対象文字列の修正を行う。したがって、置換文字列の絞り込みをより適切に行って、修正対象文字列に対する修正を精度よく行うことができる。
以上説明した実施形態の知識処理装置10における各機能構成は、例えば、知識処理装置10のハードウェア構成としてコンピュータを用いる場合、このコンピュータで所定のプログラムを実行することにより実現できる。知識処理装置10として用いるコンピュータで実行されるプログラムは、例えば、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、知識処理装置10として用いるコンピュータで実行されるプログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、知識処理装置10として用いるコンピュータで実行されるプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、知識処理装置10として用いるコンピュータで実行されるプログラムを、コンピュータ内部のROM12などに予め組み込んで提供するように構成してもよい。
知識処理装置10として用いるコンピュータで実行されるプログラムは、知識処理装置10の機能的な構成要素(入力部101、提示部102、受付部103、選択部104、特定部105、生成部106、修正部107、および出力部108)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU11(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上記の各構成要素がRAM13などの主記憶部上にロードされ、上記の各構成要素が主記憶部上に生成されるようになっている。なお、知識処理装置10の機能的な構成要素は、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
以上述べた実施形態の知識処理装置10によれば、文書データDから処理対象文字列を選択する選択部104と、文書データD中の処理対象文字列とは属性が異なる条件生成用文字列に基づいて候補取得条件を生成する生成部106と、候補取得条件に従って知識辞書Nから取得された置換文字列の候補を用いて修正対象文字列に対する修正を行う修正部107と、を備えることにより、知識辞書Nを用いた文字列の修正を精度よく行うことができる。
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 知識処理装置
101 入力部
102 提示部
103 受付部
104 選択部
105 特定部
106 生成部
107 修正部
108 出力部
D(D’) 文書データ
N 知識辞書

Claims (12)

  1. 知識辞書を用いて文字列の修正を行う知識処理装置であって、
    複数の文字列を含み、文字列ごとに該文字列の属性が付された文書データから、修正対象文字列を選択する選択部と、
    前記文書データ中の前記修正対象文字列とは属性が異なる他の文字列に基づいて、前記修正対象文字列を置換する置換文字列の候補を取得する条件を生成する生成部と、
    前記条件に従って前記知識辞書から取得された前記置換文字列の候補を用いて、前記修正対象文字列に対する修正を行う修正部と、を備え
    前記属性は、文字列が姓名の姓であることを示す姓属性と、文字列が姓名の名であることを示す名属性とを含み、
    前記生成部は、前記修正対象文字列の属性が姓属性である場合は、前記修正対象文字列に隣接する他の文字列であって名属性が付された文字列に基づいて前記条件を生成し、前記修正対象文字列の属性が名属性である場合は、前記修正対象文字列に隣接する他の文字列であって姓属性が付された文字列に基づいて前記条件を生成する、知識処理装置。
  2. 前記条件によらずに前記置換文字列を特定する特定部をさらに備え、
    前記生成部は、前記特定部が前記置換文字列を特定できなかった場合に前記条件を生成し、
    前記修正部は、前記特定部が前記置換文字列を特定できた場合は、特定された前記置換文字列により前記修正対象文字列を置換し、前記特定部が前記置換文字列を特定できなかった場合は、前記条件に従って取得された前記置換文字列の候補を用いて、前記修正対象文字列に対する修正を行う、請求項1に記載の知識処理装置。
  3. 前記置換文字列の候補をユーザに提示する提示部と、
    提示した前記置換文字列の候補を選択するユーザ操作を受け付ける受付部と、をさらに備え、
    前記修正部は、選択された前記置換文字列の候補により前記修正対象文字列を置換する、請求項1に記載の知識処理装置。
  4. 前記文書データをユーザに提示する提示部と、
    提示した前記文書データ中の任意の文字列を指定するユーザ操作を受け付ける受付部と、をさらに備え、
    前記選択部は、ユーザ操作により指定された文字列を前記修正対象文字列として選択する、請求項1に記載の知識処理装置。
  5. 前記文書データをユーザに提示する提示部と、
    提示した前記文書データ中の任意の文字列を指定するユーザ操作を受け付ける受付部と、をさらに備え、
    前記生成部は、ユーザ操作により指定された文字列であって、前記修正対象文字列とは属性が異なる他の文字列に基づいて、前記条件を生成する、請求項1に記載の知識処理装置。
  6. 前記生成部は、前記修正対象文字列の属性が、該文字列が姓名の姓であることを示す姓属性であり、前記他の文字列の属性が、該文字列が住所であることを示す住所属性である場合に、前記他の文字列で示される地域に特有の姓を前記置換文字列の候補として取得する前記条件を生成する、請求項1に記載の知識処理装置。
  7. 前記生成部は、前記修正対象文字列の属性が、該文字列が姓名の名であることを示す属性であり、前記他の文字列の属性が、該文字列が生年月日であることを示す生年月日属性である場合に、前記他の文字列で示される年の人気名を前記置換文字列の候補として取得する前記条件を生成する、請求項1に記載の知識処理装置。
  8. 前記生成部は、前記修正対象文字列の属性が、該文字列が姓名の名であることを示す名属性であり、前記他の文字列の属性が、該文字列が生年月日であることを示す生年月日属性である場合に、前記他の文字列で示される年の干支にちなんだ名前を前記置換文字列の候補として取得する前記条件を生成する、請求項1に記載の知識処理装置。
  9. 前記生成部は、前記修正対象文字列の属性が、該文字列が姓名の名であることを示す名属性であり、前記他の文字列の属性が、該文字列が生年月日であることを示す生年月日属性である場合に、前記他の文字列で示される季節にちなんだ名前を前記置換文字列の候補として取得する前記条件を生成する、請求項1に記載の知識処理装置。
  10. 前記生成部は、複数の前記条件を生成し、
    生成した複数の前記条件を提示する提示部と、
    提示した複数の前記条件のそれぞれに対する優先度を指定するユーザ操作を受け付ける受付部と、をさらに備え、
    前記修正部は、複数の前記条件に従って各々取得された前記置換文字列の候補のうち、前記優先度が高い前記条件に従って取得された前記置換文字列の候補を優先的に用いて、前記修正対象文字列に対する修正を行う、請求項1に記載の知識処理装置。
  11. 知識辞書を用いて文字列の修正を行う知識処理装置において実行される方法であって、
    前記知識処理装置が、複数の文字列を含み、文字列ごとに該文字列の属性が付された文書データから、修正対象文字列を選択するステップと、
    前記知識処理装置が、前記文書データ中の前記修正対象文字列とは属性が異なる他の文字列に基づいて、前記修正対象文字列を置換する置換文字列の候補を取得する条件を生成するステップと、
    前記知識処理装置が、前記条件に従って前記知識辞書から取得された前記置換文字列の候補を用いて、前記修正対象文字列に対する修正を行うステップと、を含み、
    前記属性は、文字列が姓名の姓であることを示す姓属性と、文字列が姓名の名であることを示す名属性とを含み、
    前記条件を生成するステップでは、前記修正対象文字列の属性が姓属性である場合は、前記修正対象文字列に隣接する他の文字列であって名属性が付された文字列に基づいて前記条件を生成し、前記修正対象文字列の属性が名属性である場合は、前記修正対象文字列に隣接する他の文字列であって姓属性が付された文字列に基づいて前記条件を生成する、方法。
  12. コンピュータに、
    複数の文字列を含み、文字列ごとに該文字列の属性が付された文書データから、修正対象文字列を選択する選択部の機能と、
    前記文書データ中の前記修正対象文字列とは属性が異なる他の文字列に基づいて、前記修正対象文字列を置換する置換文字列の候補を取得する条件を生成する生成部の機能と、
    前記条件に従って知識辞書から取得された前記置換文字列の候補を用いて、前記修正対象文字列に対する修正を行う修正部の機能と、を実現させるためのプログラムであって、
    前記属性は、文字列が姓名の姓であることを示す姓属性と、文字列が姓名の名であることを示す名属性とを含み、
    前記生成部は、前記修正対象文字列の属性が姓属性である場合は、前記修正対象文字列に隣接する他の文字列であって名属性が付された文字列に基づいて前記条件を生成し、前記修正対象文字列の属性が名属性である場合は、前記修正対象文字列に隣接する他の文字列であって姓属性が付された文字列に基づいて前記条件を生成する、プログラム。
JP2013185634A 2013-09-06 2013-09-06 知識処理装置、方法およびプログラム Active JP6304979B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013185634A JP6304979B2 (ja) 2013-09-06 2013-09-06 知識処理装置、方法およびプログラム
CN201410346227.1A CN104424350B (zh) 2013-09-06 2014-07-21 知识处理装置以及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013185634A JP6304979B2 (ja) 2013-09-06 2013-09-06 知識処理装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015052933A JP2015052933A (ja) 2015-03-19
JP6304979B2 true JP6304979B2 (ja) 2018-04-04

Family

ID=52701916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013185634A Active JP6304979B2 (ja) 2013-09-06 2013-09-06 知識処理装置、方法およびプログラム

Country Status (2)

Country Link
JP (1) JP6304979B2 (ja)
CN (1) CN104424350B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6679350B2 (ja) * 2016-03-09 2020-04-15 キヤノン株式会社 情報処理装置、プログラム及び情報処理方法
CN113095325B (zh) * 2021-05-11 2021-11-09 浙江华是科技股份有限公司 一种船舶识别方法、装置及计算机可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59229683A (ja) * 1983-06-10 1984-12-24 Toshiba Corp 認識処理装置
JPH10232906A (ja) * 1997-02-19 1998-09-02 Sharp Corp 文字認識方法
JP3452774B2 (ja) * 1997-10-16 2003-09-29 富士通株式会社 文字認識方法
JP2000148912A (ja) * 1998-11-09 2000-05-30 Canon Inc 人名認識装置、人名認識方法、及び記憶媒体
JP2000311170A (ja) * 1999-04-27 2000-11-07 Hitachi Ltd テキスト情報抽出方法
JP2004086619A (ja) * 2002-08-27 2004-03-18 Toshiba Corp 姓名漢字検索システム
JP5462017B2 (ja) * 2010-02-08 2014-04-02 沖電気工業株式会社 帳票処理システム、エントリ端末および帳票データ処理方法
CN103186524B (zh) * 2011-12-30 2016-04-13 高德软件有限公司 一种地名识别方法和装置

Also Published As

Publication number Publication date
JP2015052933A (ja) 2015-03-19
CN104424350B (zh) 2017-12-01
CN104424350A (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
US9898464B2 (en) Information extraction supporting apparatus and method
US9704480B2 (en) Information processing apparatus, method for processing information, and program
CN109804363B (zh) 使用通过示例的格式修改的连接
US20080294982A1 (en) Providing relevant text auto-completions
JP6007784B2 (ja) 文書分類装置及びプログラム
JP5426710B2 (ja) 検索支援装置、検索支援方法およびプログラム
US20150199567A1 (en) Document classification assisting apparatus, method and program
US20200026958A1 (en) High-dimensional image feature matching method and device
JP4136316B2 (ja) 文字列認識装置
CN101493896B (zh) 文档图像处理装置及文档图像处理方法
KR102373884B1 (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
US10438097B2 (en) Recognition device, recognition method, and computer program product
JP6304979B2 (ja) 知識処理装置、方法およびプログラム
JP5049965B2 (ja) データ処理装置及び方法
WO2020065970A1 (ja) 学習システム、学習方法、及びプログラム
JP6847421B2 (ja) プログラム、情報記憶媒体及び文字列認識装置
JP2017182646A (ja) 情報処理装置、プログラム及び情報処理方法
JP6677093B2 (ja) 表データ検索装置、表データ検索方法、及び表データ検索プログラム
KR102170844B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
JP2017049911A (ja) 文字認識装置、文字認識方法およびプログラム
JP2012098905A (ja) 文字認識装置、文字認識方法及びプログラム
US7899251B2 (en) Balancing out-of-dictionary and in-dictionary recognition scores
JP5752073B2 (ja) データ修正装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180306

R150 Certificate of patent or registration of utility model

Ref document number: 6304979

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150