CN106250354A

CN106250354A - 处理文书的信息处理装置、信息处理方法以及程序

Info

Publication number: CN106250354A
Application number: CN201610365828.6A
Authority: CN
Inventors: 宫下功; 片冈正弘; 川村洋之; 向井大树
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-06-09
Filing date: 2016-05-27
Publication date: 2016-12-21
Anticipated expiration: 2036-05-27
Also published as: JP2017004218A; TW201643749A; TWI667579B; JP6648421B2; CN106250354B

Abstract

本发明能够适当地对包括罕用字的文书进行语素分析。程序使计算机执行：辨别处理，在处理对象的文书中，辨别不包含于信息处理装置处理的文字标准的罕用字；置换处理，基于从使用于语素分析的第一词典生成的置换词典将罕用字置换为包含于文字标准的常用字；以及解析处理，使用上述第一词典对上述罕用字被置换成上述常用字的文书进行解析。

Description

处理文书的信息处理装置、信息处理方法以及程序

技术领域

本发明涉及处理文书的信息处理装置，信息处理方法以及程序。

背景技术

近年来以经营判断的高速度化，准确性提高为目的，利用被称为文本挖掘的文书解析技术来对企业具有的数据进行分析，提取有用的信息的动向很活跃。在文本挖掘中有时执行用有意义的单词单位划分文书中的句子的语素分析。在语素分析中，将预先准备的单词词典与从处理对象的句子取出的单词进行比较。然而，若处理对象的句子包括如利用者定义文字这样的罕用字，则计算机不能够正确地将句子划分为单词，不能够提取有用的信息。此外，以下，文书能够例示为包括一个或者多个句子的信息。

图1表示计算机对包括罕用字的句子进行语素分析的处理的一个例子。在图1的例子中，假定为从句子中的左边开始第二个文字C2和第七个文字C7是罕用字。在图1的例子中，从左边开始第一个文字C1和第二个文字C2显示专有名词。然而，在计算机对图1的句子进行语素分析的情况下，不能够识别从左边开始第二个文字C2的语素。因此，第一个文字C1和第二个文字C2分别被判断为“汉字”、“？？(不明，未定义)”。包括从图1的左边第七个文字的位置，换句话说从左边开始第六个文字C6到第八个文字C8的位置也相同。

如利用者定义文字这样未包含在特定的文字集合中的文字被称为罕用字。更具体而言，例如针对一个计算机，将不包含于该计算机处理的特定的文字标准的文字称为罕用字。另一方面，将包含于特定的文字标准的文字被称为常用字。

如上述那样，若计算机进行包括罕用字的句子的语素分析，则计算机不能够识别文书中的罕用字部分。结果包括罕用字的句子的语素分析的执行结果变得不适当。因此，以往，在对句子进行语素分析的情况下，在将罕用字置换成常用字的异字体后执行语素分析。此处，常用字的异字体例如是指与罕用字类似的形状的常用字，且作为罕用字的代用被使用的。

图2例示计算机将句子的罕用字置换为常用字的异字体，进行语素分析的处理。在图2的例子中，从图1所例示的句子中的左边开始第二个文字C2和第七个文字C7分别被置换为常用字，执行语素分析。

专利文献1：日本特开2000-293522号公报

专利文献2：日本特开2006-235800号公报

专利文献3：日本特开2010-165302号公报

然而，即使将罕用字置换成常用字，语素分析的结果也不一定变成适当的结果。语素分析能够指将句子分割为语言中具有意义的最小的单位，并判断词类等的处理。假定处理对象的句子包含包括罕用字的单词Z1的情况。若该句子的罕用字被置换为常用字，则单词Z1例如被置换为单词Z2。

然而，执行语素分析的程序不一定能够将单词Z2识别为语素。更具体而言，在包括罕用字的单词Z1是名词、动词、形容词、句子中的符号等的情况下，产生执行语素分析的程序不能够将置换后的单词Z2识别为相同的词类的单词的情况。是因为存在语素分析的单词词典中未登记置换后的单词Z2的情况。例如，是因为在单词Z1是人名等专有名词的情况下，执行语素分析的程序不一定能够将置换后的单词Z2识别为人名。此外，这种问题并不限于人名这样的专有名词，在句子中的罕用字被置换为常用字而进行语素分析的处理中，在名词、动词、形容词、副词、助词、助动词、连接词、接词、符号、记号等其它的语素分析的要素中也会产生。

发明内容

因此，根据本实施方式的一方面，其目的在于，提高包括罕用字的文书的语素分析精度。

本实施方式的一方面通过用于使计算机执行信息处理的程序来进行例示。该程序使计算机执行：辨别处理，在处理对象的文书中，辨别不包含于信息处理装置所处理的文字标准的罕用字；置换处理，基于从使用于语素分析的第一词典生成的置换词典将罕用字置换为包含于文字标准的常用字；以及解析处理，使用第一词典，对罕用字被置换成常用字的文书进行解析。

根据本信息处理装置，能够比以往适当地对包括罕用字的文书进行语素分析。

附图说明

图1是表示对包含罕用字的句子进行语素分析的处理的一个例子的图。

图2是例示计算机将句子中的罕用字置换为常用字的异字体，并进行语素分析的处理的图。

图3是例示伴随信息处理装置执行的处理的数据流和各处理中所使用的词典的图。

图4是例示使用了OCR词典的处理的图。

图5是例示使用了大规模文字集的处理的图。

图6是例示属性信息的类似度的计算结果的图。

图7是部件的类似度词典的例子。

图8是部件的位置的类似度的计算例子。

图9是部件的位置的类似度的其它计算例子。

图10是例示实施方式的处理所产生的效果的图。

图11是例示信息处理装置的硬件构成图的图。

图12是例示全体处理流程的图。

图13是例示基于大规模文字集的检索处理的详细的流程图。

图14是基于大规模文字集的检索处理的详细的其它例子。

图15是例示在部件中分解罕用字的处理的图。

符号说明

1…单词词典；2…OCR词典；3…大规模文字集；4…属性词典；5…部件的类似度词典；11…CPU；12…主存储装置；13外部存储装置

具体实施方式

以下，参照附图，对一实施方式所涉及的信息处理装置进行说明。

<处理例子>

图3例示伴随本信息处理装置执行的处理的数据流和各处理中所使用的词典。如图3那样，本信息处理装置具有单词词典1、OCR词典2、大规模文字集3、和属性词典4。本信息处理装置通过对处理对象的文书和图3所例示的词典进行比较，来将文书中的罕用字置换为能够进行语素分析的常用字的异字体。

(A)单词词典1

单词词典1是语素分析所使用的词典。单词词典1是第一词典的一个例子。单词词典1中例如登记有组合了文字与文字的单词、和单词的词类。在单词词典1中，文字用文字代码描述。文字代码用1字节或2字节等字节序列定义文字。因此，单词词典1通过文字代码的组合来定义单词。例如本信息处理装置从处理对象的句子获取文字代码的组合，并通过获取到的文字代码的组合来检索单词词典1。而且，在单词词典1中定义有文字代码的组合的情况下，本信息处理装置将文字代码的组合识别为单词。

另外，信息处理装置具有与各文字代码对应的文字形状即文字字形(font)的库。因此，信息处理装置接受文字代码和文字字形的种类的指定，将文书中的文字代码用以文字字形所指定的文字形状输出给显示器，打印机等。在本实施方式中，信息处理装置使用规定的字形来执行处理。规定的字形例如能够通过用户操作进行设定即可。

(B)OCR词典2

OCR词典2是将与文字代码对应的文字形状变换成适合OpticalCharacter Recognition(OCR)处理的形式的词典。例如OCR词典2具有文字的纵横之比被标准化为规定的值的文字形状的信息。另外，OCR词典2可以具有各个文字形状保持原样的图形，也可以具有将文字形状分解成特征部分的文字形状的图形。例如OCR词典2可以按照使文字被分类为针对从中心朝向放射状的各方向矢量包含于规定的允许角度范围的线段的每个部分，具有文字形状的特征图形。无论为哪一种情况，OCR词典2都以适合本信息处理装置中所执行的OCR处理的形式具有文字形状的信息。

本信息处理装置将单词词典1中所登记的语素分析用的文字代码的组合分解为各个文字代码。例如假定单词词典1中登记有“渡辺”、“渡邉”、“渡邊”这三个单词的情况。信息处理装置将这些单词分解为“渡”、“辺”、“邉”、“邊”这些文字。而且，信息处理装置获取从单词分解出的各个文字的文字形状，生成适合OCR词典2的文字形状的信息，并登记于OCR词典2。因此，OCR词典2作为置换词典的一个例子，包括定义第一词典(单词词典1)所包含的常用字的文字形状的文字形状信息。

本信息处理装置若在语素分析中辨别语素分析对象的文书中的罕用字，则对罕用字的文字形状信息和OCR词典2的文字形状信息进行比较，检索与罕用字的文字形状匹配的OCR词典2中的文字形状。而且，在本信息处理装置能够获取与罕用字的文字形状匹配的OCR词典2中的文字形状的情况下，将罕用字的文字代码置换为与能够获取的文字形状对应的常用字的文字代码。即，本信息处理装置将作为语素分析的对象的文书中的罕用字的文字代码置换为从OCR词典2获取的常用字的文字代码。而且，信息处理装置对罕用字被置换成常用字的文书执行语素分析。

(C)大规模文字集3

大规模文字集3是也被称为大规模文字集合，大规模文字集(set)等的登记了文字代码和文字形状信息的文字的词典，指包括比一般通用的标准多的文字的词典。因此，能够认为大规模文字集3登记有比以一个标准规定的范围多的数量的文字代码和文字形状信息。大规模文字集3由计算机厂商，出版社等企业，大学，研究机构，研究人员的团体等提供。大规模文字集3可以安装到信息处理装置内，也可以储存在能够通过LAN(Local Area Network：局域网)或者因特网等进行访问的服务器上的数据库中。

(D)属性词典4

属性词典4是将单词词典1所包含的文字分解为部件，并定义每个文字代码的读法、部件、和部件的位置等属性信息的词典。在本实施方式中，属性词典4的各记录(record)包括文字代码，读法，部件和部件的位置这些要素。各记录中的要素“读法”定义用文字代码指定的文字(汉字)的读法。

要素“部件”定义用文字代码指定的文字所包含的部件。作为部件，例如能够例示以汉字的部首特定的部件例如偏、旁、冠、脚、构、垂、绕这7种部首。在7种部首的各个中，例如单人旁、提手旁等具体的部首以部件代码定义。在文字具有多个部件的情况下，与文字代码对应地指定多个部件代码。此外，属性词典4也可以保持与部件代码对应的部件的形状信息，换句话说，部件的图形。但是，属性词典4也可以不保持部件的形状，而在其它字形文件等中定义部件的形状信息。

要素“部件的位置”是定义文字的存在范围中定义的文字区域中的、部件的位置的信息。要素“部件的位置”能够以部件的形状内的基准点位于的文字区域内的部分区域编号指定。例如假设文字区域是经过标准化的规定的尺寸的矩形区域。如图3所例示，矩形区域被分割为纵4横4的合计16个部分区域，在各部分区域中标注编号1～16。另外，假设部件的形状信息的范围，换句话说部件的存在区域的左上点是基准点。这种情况下，部件的位置被定义为部件的存在区域的左上点所属的文字中的部分区域的编号。在属性词典4的各记录中，在要素“部件的位置”中定义各个部件的位置。此外，在图3中，以“渡”、“辺”、“邉”、“邊”这四个文字为例来例示出属性词典4，但属性词典4并不限定于这四个文字。

(E)大规模文字集3和属性词典4的利用目的

在本实施方式中，在信息处理装置通过OCR词典2不能够决定与罕用字对应的常用字的异字体时，利用大规模文字集3和属性词典4。即，本信息处理装置对罕用字的文字形状信息和与大规模文字集3所包含的文字代码对应的文字形状信息进行比较，选择双方的文字形状以一定基准值以上的分值匹配的大规模文字集3的文字。本信息处理装置从大规模文字集3获取选择出的文字的部件和部件的位置等属性信息，并从属性词典4选择部件和部件的位置等属性信息类似的常用字。此外，信息处理装置在用罕用字的文字形状检索大规模文字集3前，可以事先将罕用字分解为部件，并基于部件来检索大规模文字集3。

图4是例示使用了OCR词典2的处理的图。在图4的处理例子中，对作为语素分析的对象的句子中包括组合了文字C1、C2的单词Z1的句子进行处理。文字C1是“渡”，文字C2是“邉”的文字的“自”的部分变成“白”的罕用字的例子。若本信息处理装置识别成为语素分析的对象的句子中有罕用字，则获取该罕用字的形状。罕用字的形状被保存在例如用户定义词典，罕用字文件等中。本信息处理装置对罕用字的文字形状进行标准化，变换为与OCR词典2一致的格式，并与OCR词典2中定义的文字形状相比较，执行OCR处理。

本信息处理装置在与OCR词典2的比较的结果，识别出以基准值以上的分值与罕用字(文字C2)一致的文字形状的文字的情况下，从OCR词典2获取该文字的文字代码。在图4的例子中，OCR处理的结果识别出“邉”的文字。于是，本信息处理装置将在成为语素分析的对象的句子中是罕用字的文字C2置换为常用字“邉”。结果成为语素分析的对象的句子成为代替组合了常用字“渡”(文字C1)和罕用字C2的单词Z1而包括组合了常用字“渡”和常用字“邉”的单词Z2的句子。本信息处理装置针对这样将罕用字置换成常用字的句子，使用单词词典1来执行语素分析。

基于原来单词词典1中定义的单词所包含的文字形状以适合OCR处理的执行的形式创建OCR词典2。因此，OCR词典2所包含的常用字包含在单词词典1中定义的单词中。结果包括常用字“邉”的单词Z2，换句话说，组合了常用字“渡”和常用字“邉”的单词Z2在单词词典1中被定义的可能性较高。换句话说，通过图4的处理，本信息处理装置可提高能够适当地执行语素分析的可能性。

图5是例示使用了大规模文字集3的处理的图。图5的处理例子与图4相同地，对作为语素分析的对象的文书中包括组合了文字C1，C2的单词Z1的句子进行处理。在图5的处理中，信息处理装置对罕用字的文字形状和与大规模文字集3中定义的文字对应的文字形状进行比较，进行OCR处理。在图5的例子中，信息处理装置对基于大规模文字集3的OCR处理的结果是与罕用字(文字C2)一致的文字的识别成功。因此，信息处理装置从大规模文字集3获取罕用字(文字C2)的属性信息。属性信息例如是读法，部件，部件位置。部件例如用部件代码显示，是白、宀、八、口、辶等。部件位置与各部件代码对应地来显示。部件位置例如是将图3中所说明的文字区域分割成16个部分时的部分区域的编号。

接下来，信息处理装置对罕用字(文字C2)的属性信息和属性词典4进行比较。如图3所说明那样，在属性词典4中定义了从单词词典1获取到的各文字的属性信息。因此，信息处理装置从属性词典4提取部件和部件位置与罕用字(文字C2)的属性信息类似的文字。例如在图5的例子中，提取出常用字“邉”。相对于罕用字(文字C2)具有部首辶和白，在常用字“邉”具有部首廴和自这一点上2个文字不同。然而，其它部首以及部首的位置匹配。因此，本信息处理装置判定为罕用字(文字C2)的属性信息和常用字“邉”的属性信息以规定的基准值以上的分值匹配，并获取常用字“邉”。

图6例示属性信息的类似度的计算结果。图6中例示出对图5中所例示的罕用字(文字C2)的属性信息和属性词典4进行比较的处理中的属性信息的类似度的计算结果。

首先，关于读法的类似度，如图5所例示，罕用字(文字C2)与“渡”没有一致的地方。因此，罕用字(文字C2)和“渡”的读法的类似度为0分。另一方面，罕用字(文字C2)和“辺”、“邉”、“邊”的字的四个读法一致。在本实施方式中，当读法一致时赋予100分。结果图6中，罕用字(文字C2)和“辺”、“邉”、“邊”的各个字的读法的类似度为400分。

关于部件的类似度，如图6那样，罕用字(文字C2)具有白、宀、八、口、辶作为部件。另一方面，“渡”的字作为部件而是又、氵、广等，与罕用字(文字C2)的部件没有一致的地方。因此，本信息处理装置将罕用字(文字C2)与“渡”的字的类似度计算为0。

另外，“辺”的字具有刀和辶。“辺”的字的刀与罕用字(文字C2)的部件不一致，但辶与罕用字(文字C2)的部件一致。例如若存在一致的部件则本信息处理装置加100分。结果罕用字(文字C2)和“辺”的字的类似度被计算为100分。

另一方面，“邉”的字具有自、冖、八、口、廴作为部件。“邉”的字的“自”以及“冖”分别与罕用字(文字C2)的“白”以及“宀”类似，所以信息处理装置分别赋予70分。另外，由于“邉”的字的“八”以及“口”与罕用字(文字C2)的部件一致，所以信息处理装置分别赋予100分。并且，由于“邉”的字的“廴”与罕用字(文字C2)的“辶”类似，所以信息处理装置赋予80分。根据这些计算，罕用字(文字C2)和“邉”的字的类似度被计算为420分。罕用字(文字C2)和“邊”的字也通过同样的计算，类似度被计算为320分。

图6中，计算读法的类似度与部件的类似度的合计。然而，本信息处理装置可以不使用读法的类似度而将罕用字置换为常用字。是因为文字形状类似的文字彼此的读法一致的情况较多，所以判断文字形状的类似就充分的情况较多。但是，本信息处理装置为了减少文字形状的比较所引起的误判定，可以执行包括读法的类似度来判断属性信息的类似度，将罕用字置换为常用字的处理。

图7是定义了部件间的类似度的部件的类似度词典5的例子。部件的类似度词典5是对部件对部件的关系设定了类似度的值的词典。部件间的类似度的值是在部件一致的情况下设为100分，对部件与部件类似的程度进行数值化所得的值。例如部件“白”和部件“自”，部件“冖”和部件“宀”，部件“儿”与部件“八”都被定义为类似度70分。另外，部件“廴”和部件“辶”被定义为类似度80分。图6的处理是按照图7的部件的类似度词典5所计计算的结果。

图8是部件的位置的类似度的计算例子。本信息处理装置通过图6的处理选择相对于罕用字的部件的类似度为规定的基准值以上的常用字，并对选择出的多个常用字计算相对于罕用字的部件的位置的类似度。

在本实施方式中，如图3所说明那样，部件的位置通过将文字标准化后的文字区域被分割成16个部分的部分区域的编号来指定。例如罕用字(文字C2)的部件的位置成为白:2、宀：6、八:8、口:1 0、辶：1的各位置。

另一方面，“邉”的文字的部件的位置成为自:2，冖:6、八:6、口:10、廴：1的各位置。如图8那样，由于罕用字(文字C2)和“邉”的文字的部件的位置全部一致，所以本信息处理装置对各个部件的位置赋予100分。因此，合计分为500分。

并且，“邊”的文字的部件的位置成为自:2、宀：7、儿：6、方:10、廴：1的各位置。“邊”的文字的部件的位置中，作为部件的位置，2、6、10、1与罕用字(文字C2)的部件的位置一致，所以信息处理装置分别赋予100分。另一方面，没有与“邊”的文字的部件的位置中的7一致的罕用字(文字C2)的部件的位置。在罕用字(文字C2)的部件的位置剩下的位置中最近的部件的位置是8。因此，本信息处理装置针对部件的位置7与8的关系赋予90分。因此，合计为490分。

图9是部件的位置的类似度的其它计算例子。在该例子中，在2个文字C10、C11间，将类似的部件彼此建立对应，并计算对应的部件的位置的类似度。例如文字C10和文字C11都具有部件“山”，所以信息处理装置将文字C10的部件“山”和文字C11的部件“山”建立对应，并判定这些部件的位置。文字C10的部件“山”、和文字C11的部件“山”都是位置为1，所以本信息处理装置赋予100分。

另外，文字C10和文字C11都具有部件“巛”。文字C10的部件“巛”的位置是5，另一方面，文字C11的部件“巛”的位置是2。因此，本信息处理装置对文字C10的部件“巛”和文字C11的部件“巛”赋予70分。

另外，文字C10和文字C11都具有部件“田”。文字C10的部件“田”的位置是9，另一方面，文字C11的部件“田”的位置是10。因此，本信息处理装置对文字C10的部件“田”和文字C11的部件“田”赋予90分。此外，如图9所例示那样的按照部件的每个位置关系所赋予的分数例如作为位置的类似度的词典被保持在例如信息处理装置的主存储上即可。另外，本信息处理装置也可以按照计算机程序如下那样计算评价分，即，例如对于2个文字的部件，在彼此的部分区域的位置一致的情况下，为100分，而在邻接的情况下为90分，而且每相离一个时就减去10分。

图10例示本实施方式的处理所产生的效果。通过以上图3～图9所例示的处理，本信息处理装置将语素分析的对象的句子中的罕用字置换为语素分析所使用的单词词典1中定义的常用字。结果例如图10的罕用字C2被置换为常用字“邉”。另外，罕用字C7被置换为常用字“宵”。这些常用字“邉”以及“宵”都是从语素分析所使用的单词词典1获取。因此，罕用字被置换成常用字的单词“渡邉”以及“阿宵月”均在单词词典1中被定义的可能性较高。因此，根据本信息处理装置，与单纯地将罕用字置换为常用字的情况相比较，能够将语素分析的对象的句子中的包括罕用字的单词变换为能够进行语素分析的适当的单词的可能性较高。

<硬件构成>

图11例示本信息处理装置的硬件构成图。本信息处理装置具有Central Processing Unit(CPU)11、主存储装置12，通过接口18连接的外部设备，并通过程序执行信息处理。作为外部设备，能够例示外部存储装置13以及通信接口14。CPU11执行可执行地展开到主存储装置12中的计算机程序，来提供本信息处理装置的功能。CPU11也被称为处理器。主存储装置12存储CPU11执行的计算机程序、CPU11处理的数据等。主存储装置12是Dynamic Random Access Memory(DRAM)、Static Random Access Memory(SRAM)、Read Only Memory(ROM)等。并且，外部存储装置13例如作为辅助主存储装置12的存储区域被使用，对CPU11执行的计算机程序、CPU 11处理的数据等进行存储。外部存储装置13是硬盘驱动器、Solid State Disk(SSD)等。

另外，本信息处理装置可以具有输入装置15、显示装置16等的用户接口。输入装置15例如是键盘、指示设备等。另外，显示装置16例如是液晶显示器、电致发光面板等。并且，本信息处理装置可以设置能够装卸的存储介质驱动装置17。能够装卸的存储介质例如是蓝光盘、Digital Versatile Disk(DVD)、Compact Disc(CD)、闪存卡等。此外，在图11的例子中例示出单一的接口18，但作为接口18，可以设置多个多种类的接口。

本信息处理装置例如是个人计算机、在网络上向个人计算机、终端等提供服务的服务器、信息移动终端(Personal Data Assistance(PDA))、移动电话等。

<处理流程>

图12～图15例示本信息处理装置的处理流程。图12是例示本信息处理装置的全体处理流程的图。在图12的处理中，作为输入数据即语素分析的对象，例示出包括文字代码0x6E21和文字代码0xE001的句子。其中，文字代码0xE001的文字是罕用字C2。在本实施方式中，在文字代码0x0000～0xDFFF的范围内定义常用字，在文字代码0xE000以下的范围内定义罕用字。因此，本信息处理装置能够根据文字代码的范围来辨别常用字和罕用字。

首先，本信息处理装置判定输入数据中是否有罕用字(S1)。S1的处理是辨别处理对象的文书中、不包含于信息处理装置所处理的文字标准的罕用字的辨别处理的一个例子。另外，本信息处理装置在如上述那样的文字代码0xE000以下的范围内判定罕用字即可。因此，S1的处理也是基于确定文字的文字代码的范围来辨别罕用字的一个例子。

在输入数据中没有罕用字的情况下，本信息处理装置对输入数据直接执行语素分析(S15)。另一方面，在输入数据中有罕用字的情况下，本信息处理装置判定输入数据中被识别出的罕用字是过去识别完毕的罕用字还是初次识别出的罕用字(S2)。过去识别完毕的罕用字例如被登记到主存储装置12或者外部存储装置13上的被称为置换表格的区域中。因此，本信息处理装置通过参照置换表格来判定输入数据中被辨别出的罕用字是否是初次识别出的罕用字即可。

在输入数据中被辨别出的罕用字是过去识别完毕的罕用字，并被登记到置换表格的情况下，本信息处理装置将输入数据中被辨别出的罕用字的罕用字代码变换为置换表格中建立关系的常用字的文字代码(S14)，执行语素分析(S15)。

在输入数据中被识别出的罕用字是初次识别出的罕用字的情况下，本信息处理装置获取罕用字的文字形状(S3)。罕用字的文字形状例如与罕用字的文字代码建立对应地被登记到罕用字文件中。在本实施方式中，罕用字文件保持罕用字的文字形状的位图。而且，本信息处理装置根据罕用字的位图创建与OCR词典2同一构成的文字形状信息，并与OCR词典2的文字形状进行比较。与OCR词典2同一构成的文字形状信息是指例如文字的纵横比被标准化，从文字中心在每个规定方向(放射状的各方向)提取出特征数据的数据。将这样的比较处理称为OCR处理。本信息处理装置判定OCR处理的结果，是否能够以规定的基准值以上的分值识别出与罕用字的文字形状一致的文字形状的常用字(S4)。

在能够识别出与罕用字的文字形状一致的文字形状的常用字的情况下，本信息处理装置获取类似文字作为OCR处理的结果。并且，本信息处理装置对OCR词典2的其它文字形状也反复同样的处理，从而获取类似文字一览(S5)。但是，也可能有类似文字为单一的情况。

接下来，本信息处理装置在语素分析用的单词词典1中检索作为类似文字一览而获取的文字(S6)。接下来，本信息处理装置判定S6的检索的结果，语素分析用的单词词典中能够检索出的文字是否是多个(S7)。在语素分析用的单词词典中能够检索出的文字是一个的情况下，本信息处理装置选择语素分析用的单词词典1中能够检索出的文字(S12)，并将罕用字的文字代码和语素分析用的单词词典中能够检索出的文字的文字代码的组合登记于置换表格中(S13)。

在S7的判定中，在语素分析用的单词词典中能够检索出的文字是多个的情况下，本信息处理装置从属性词典4获取能够检索出的多个文字的属性信息。如图3所例示，属性词典4中针对单词词典1的文字登记有读法、部件、部件的位置等属性信息。因此，本信息处理装置从罕用字文件获取罕用字的属性信息，并对罕用字的属性信息和能够检索出的多个文字的属性信息进行比较。此外，在罕用字文件中不包括罕用字的属性信息的情况下，本信息处理装置可以从大规模文字集3获取罕用字的属性信息。

而且，本信息处理装置选择与罕用字的属性信息最类似的文字。此时，本信息处理装置判定与罕用字的属性信息最类似的文字是否有多个(S9)。在与罕用字的属性信息最类似的文字为一个的情况下，本信息处理装置执行S12以下的处理。在S9的判定中，在与罕用字的属性信息最类似的文字为多个的情况下，本信息处理装置选择JIS区域的文字(S11)，并将罕用字与选择出的文字(常用字)的组合登记于置换表格中(S13)。S5-S9、S11、S12的处理是通过对定义辨别出的罕用字的文字形状的文字形状信息和置换词典所包含的文字形状信息进行比较而选择与比较出的文字形状信息对应的常用字的一个例子。

在S4的判定中，通过OCR处理不能识别与罕用字的文字形状一致的文字形状的常用字的情况下，本信息处理装置执行基于大规模文字集3的检索处理(S1 0)。而且，本信息处理装置将基于罕用字和大规模文字集所检索出的文字(常用字)的组合登记于置换表格中(S13)。S1 3的处理后，本信息处理装置将输入数据的罕用字代码置换为通过S10至S13的处理所获取的文字的文字代码(S14)。而且，本信息处理装置执行语素分析(S15)。S14的处理是基于从使用于语素分析的第一词典生成的置换词典将罕用字置换为文字标准所包含的常用字的置换处理的一个例子。S14的处理也是将罕用字置换为选择出的常用字的一个例子。另外，S15的处理是使用第一词典对罕用字被置换成常用字的文书进行解析的解析处理的一个例子。

图13是例示基于大规模文字集3的检索处理(图12的S10)的详细的流程图。在该处理中，本信息处理装置基于罕用字的文字形状来检索大规模文字集3(S101)。更具体而言，本信息处理装置对罕用字的文字形状和登记到大规模文字集中的文字形状进行比较。S101的处理与图12中所说明的OCR处理相同。

而且，本信息处理装置判定是否能够识别出以规定的基准值以上的分值与罕用字的文字形状匹配的大规模文字集3的文字(S102)。S101、S102的处理是在通过与置换词典(OCR词典2)的比较而不能够将罕用字置换为常用字的情况下，通过将罕用字的文字形状信息与包括文字标准的范围所不包含的文字的文字形状信息的第二词典(大规模文字集3)相比较来决定与罕用字对应的第二词典中的文字的一个例子。

本信息处理装置在不能够识别出以规定的基准值以上匹配的大规模文字集3的文字的情况下，获取能够识别出的文字的属性信息(S103)。此处，大规模文字集中登记有文字的属性信息。并且，本信息处理装置从属性词典4获取从大规模文字集获取的文字的属性信息类似的文字。如图5所例示，在属性词典4中登记有语素分析所使用的单词词典1中登记的每个文字的读法、部件、部件的位置等属性信息。因此，本信息处理装置通过与图6～图10所例示的顺序同样的顺序，从属性词典4获取例如部件和部件的位置类似的文字(S104)。S104的处理是基于与决定的文字的类似度从第一词典(单词词典1)获取用于置换罕用字的常用字的一个例子。S104的处理、以及图6～图10的处理是根据各个文字形状所包含的部件的形状和在上述文字形状内配置部件的位置来计算类似度的一个例子。

图14是基于大规模文字集3的检索处理(图12的S1 0)的详细的其它例子。在图13的处理中，本信息处理装置基于罕用字的文字形状并通过OCR处理检索出大规模文字集3。在图14的处理中，本信息处理装置暂时将罕用字分解为部件(S101A)，并基于部件来检索大规模文字集3的这一点(S101B)不同。图14的S102以下的顺序与图13相同，所以省略其说明。

此外，在定义了罕用字的罕用字文件(参照图12)中登记有罕用字的部件形状和部件代码的情况下，在S101A的处理中，本信息处理装置参照罕用字文件，将罕用字分解为部件即可。另外，罕用字文件中登记有罕用字的文字形状信息，但在未登记罕用字的部件形状和部件代码的情况下，本信息处理装置按照图15将罕用字分解为部件。

图15是例示将罕用字分解为部件的处理的图。在以下的处理中，假定定义了部件的形状的部件字形文件被保存在主存储装置12或者外部存储装置13中。在该处理中，本信息处理装置从罕用字文件获取罕用字的文字形状信息(A1)。接下来，本信息处理装置从部件字形文件获取下一个部件的形状(A2)。而且，对部件的形状和罕用字的文字形状进行比较(A3)。而且，判定是否以规定的基准值以上的分值，部件的形状与罕用字的部分匹配(A4)。

在A4的判定中，部件的形状与罕用字的部分不匹配的情况下，本信息处理装置使控制返回到A2，对下一个部件反复同样的处理。此外，若部件字形文件中没有下一个部件则A2～A4的反复结束。另一方面，在A4的判定中，部件的形状和罕用字的文字形状的部分以规定的基准值以上的分值匹配的情况下，本信息处理装置登记表示匹配的部件的形状的部件代码、和部件的位置，并掩蔽罕用字的该位置(A5)。而且，本信息处理装置判定是否存在被掩蔽的位置以外的剩余部分(A6)。在存在剩余部分的情况下，本信息处理装置使控制返回到A2，继续进行处理。另一方面，在不存在剩余部分的情况下，本信息处理装置结束处理。

如以上叙述那样，在本信息处理装置中保存有基于使用于语素分析的单词词典1所创建的OCR词典2。而且，在语素分析的对象的句子即，输入数据中被识别出罕用字的情况下，本信息处理装置基于OCR词典2对罕用字进行OCR处理，并获取类似文字一览。而且，在获取的类似文字一览为一个的情况下，本信息处理装置利用输入数据中，OCR处理的结果所获取的类似文字(常用字)的文字代码置换罕用字的文字代码，执行语素分析。这样的处理的结果是罕用字的文字代码被置换的文字代码被登记到语素分析所使用的单词词典1中，作为将罕用字的文字代码置换成常用字的结果而获得的输入数据中的单词是语素分析所使用的单词词典1中所登记的单词的可能性较高。因此，根据本信息处理装置，与以往相比可提高能够适当地对包括罕用字的输入数据实施语素分析的可能性。

另外，在OCR词典2中，以适合OCR处理的形式登记常用字的文字形状。另外，本信息处理装置基于罕用字的文字代码从罕用字文件获取罕用字的文字形状，并对罕用字文字形状和OCR文书2中所登记的文字形状进行比较，从而选择OCR词典中所定义的常用字。因此，本信息处理装置在输入数据中识别出罕用字的文字代码的情况下，能够适当地选择形状类似的常用字。

另外，本信息处理装置不能够通过OCR词典2选择出以规定的基准值的分值以上与罕用字的文字形状匹配的常用字的情况下，基于罕用字的文字形状来检索大规模文字集3的文字形状。在大规模文字集中登记有各种团体、企业、机关等收集的文字代码、形状、属性等。因此，本信息处理装置能够基于罕用字的文字形状，在大规模文字集3中确定罕用字的可能性较高。若本信息处理装置能够在大规模文字集3中确定罕用字，则从大规模文字集3获取罕用字的读法、部件、部件的位置等属性信息，并能够使用属性词典4来检索属性与罕用字类似的常用字。因此，通过使用了大规模文字集3的处理，本信息处理装置还能够提高能够确定罕用字的可能性。因此，在本信息处理装置使用OCR词典2而不能够确定与罕用字相当的常用字的情况下，也能够通过大规模文字集3和属性词典4将罕用字置换为常用字。

本信息处理装置例如使用部件和部件的位置作为属性信息从属性词典4选择与罕用字类似的常用字。因此，本信息处理装置能够基于罕用字与常用字间的部件对部件的详细对比来检索与罕用字类似的常用字。另外，作为汉字的部件的部首分别具有意思。因此，本信息处理装置能够不光仅包括形状，也包括形成汉字的意思，来选择置换为罕用字的常用字。

在本实施方式中，本信息处理装置基于文字代码的范围来判定是否是罕用字。因此，本信息处理装置能够简单、可靠地识别输入数据中的罕用字。

<记录介质>

能够将使计算机其它设备、装置(以下，计算机等)实现上述任意一个功能的程序记录于计算机等可读取的记录介质中。而且，通过使计算机等读入该记录介质的程序并执行，能够提供其功能。

此处，计算机等可读取的记录介质是指通过电、磁、光学、机械或者化学的作用积蓄数据、程序等信息，并能够从计算机等读取的记录介质。作为这样的记录介质中的能够从计算机等取下的介质，例如有软盘、光磁盘、Compact Disc(CD)-Read Only Memory(ROM)、CD-Recordable(R)、Digital Versatile Disk(DVD)、蓝光光盘、Digital AudioTape(DAT)、8mm磁带、闪存等存储卡等。另外，作为固定在计算机等中的记录介质，有硬盘、ROM(只读存储器)等。并且，Solid StateDrive(SSD)可以作为能够从计算机等取下的记录介质利用，也可以作为固定在计算机等中的记录介质利用。

〈其它〉

本实施方式包括以下的称为附记的方式。各方式的构成要素可以与其它方式的构成要素组合。

(附记1)一种处理文书的信息处理装置，

具备处理器，上述处理器执行如下的处理：在处理对象的文书中，辨别不包含于上述信息处理装置所处理的文字标准的罕用字，基于从使用于语素分析的第一词典生成的置换词典将上述罕用字置换为包含于上述文字标准的常用字，并使用上述第一词典对上述罕用字被置换成上述常用字的文书进行解析。

(附记2)是附记1所记载的信息处理装置，

上述置换词典包括对上述第一词典所包含的常用字的文字形状进行定义的文字形状信息，上述处理器通过对定义上述辨别出的罕用字的文字形状的文字形状信息和上述置换词典所包含的文字形状信息进行比较来选择与上述比较出的文字形状信息对应的常用字，并将上述罕用字置换为上述选择出的常用字。

(附记3)是附记1或者2所记载的信息处理装置，

上述处理器还执行如下的处理：在通过与上述置换词典的比较而不能够将上述罕用字置换为常用字的情况下，通过将上述罕用字的文字形状信息与包括上述文字标准所不包含的文字的文字形状信息的第二词典相比较来决定与上述罕用字对应的上述第二词典中的文字，并基于与上述决定的文字的类似度从上述第一词典获取用于置换上述罕用字的常用字。

(附记4)是附记3所记载的信息处理装置，

上述处理器根据各个文字形状所包含的部件的形状和在上述文字形状内配置上述部件的位置来计算上述类似度。

(附记5)是附记1～4中的任意一项所记载的信息处理装置，

上述处理器基于确定文字的文字代码的范围来辨别上述罕用字。

(附记6)一种程序使计算机执行：

辨别处理，在处理对象的文书中，辨别不包含于上述信息处理装置所处理的文字标准的罕用字；置换处理，基于从使用于语素分析的第一词典生成的置换词典将上述罕用字置换为包含于上述文字标准的常用字；以及解析处理，使用上述第一词典，对上述罕用字被置换成上述常用字的文书进行解析。

(附记7)是附记6所记载的程序，其特征在于，

上述置换词典包括对上述第一词典所包含的常用字的文字形状进行定义的文字形状信息，

上述置换处理通过对定义上述辨别出的罕用字的文字形状的文字形状信息和上述置换词典所包含的文字形状信息进行比较来选择与上述比较出的文字形状信息对应的常用字，并将上述罕用字置换为上述选择出的常用字。

(附记8)是附记6或者7所记载的程序，

该程序还使上述计算机执行如下的处理：在通过与上述置换词典的比较而不能够将上述罕用字置换为常用字的情况下，通过将上述罕用字的文字形状信息与包括上述文字标准所不包含的文字的文字形状信息的第二词典相比较来决定与上述罕用字对应的上述第二词典中的文字，并基于与上述决定的文字的类似度从上述第一词典获取用于置换上述罕用字的常用字。

(附记9)是附记8所记载的程序，

使上述计算机根据各个文字形状所包含的部件的形状和在上述文字形状内配置上述部件的位置来计算上述类似度。

(附记10)是附记6～9中的任意一项所记载的程序，

使上述计算机基于确定文字的文字代码的范围来辨别罕用字。

(附记11)一种信息处理方法，

计算机执行如下的处理：

在处理对象的文书中，辨别不包含于上述信息处理装置所处理的文字标准的罕用字，基于从使用于语素分析的第一词典生成的置换词典将上述罕用字置换为包含于上述文字标准的常用字，使用上述第一词典对上述罕用字被置换成上述常用字的文书进行解析。

(附记12)是附记11所记载的信息处理方法，

上述置换词典包括对上述第一词典所包含的常用字的文字形状进行定义的文字形状信息，上述计算机通过对定义上述辨别出的罕用字的文字形状的文字形状信息和上述置换词典所包含的文字形状信息进行比较来选择与上述比较出的文字形状信息对应的常用字，并将上述罕用字置换为上述选择出的常用字。

(附记13)是附记11或者12所记载的信息处理方法，

上述计算机还执行如下的处理：在通过与上述置换词典的比较而不能够将上述罕用字置换为常用字的情况下，通过将上述罕用字的文字形状信息与包括上述文字标准所不包含的文字的文字形状信息的第二词典相比较来决定与上述罕用字对应的上述第二词典中的文字，并基于与上述决定的文字的类似度从上述第一词典获取用于置换上述罕用字的常用字。

(附记14)是附记13所记载的信息处理方法，

上述计算机根据各个文字形状所包含的部件的形状和在上述文字形状内配置上述部件的位置来计算上述类似度。

(附记15)是附记11～14中的任意一项所记载的信息处理方法，

上述计算机基于确定文字的文字代码的范围来辨别罕用字。

Claims

1.一种程序，其特征在于，

使计算机执行：

在处理对象的文书中，辨别不包含于上述信息处理装置所处理的文字标准的罕用字的辨别处理；

基于从使用于语素分析的第一词典生成的置换词典将上述罕用字置换为包含于上述文字标准的常用字的置换处理；以及

使用上述第一词典，对上述罕用字被置换成上述常用字的文书进行解析的解析处理。

2.根据权利要求1所述的程序，其特征在于，

3.根据权利要求1或者2所述的程序，其特征在于，

还使上述计算机执行如下的处理：在通过与上述置换词典的比较而不能够将上述罕用字置换为常用字的情况下，通过将上述罕用字的文字形状信息与包括上述文字标准所不包含的文字的文字形状信息的第二词典相比较来决定与上述罕用字对应的上述第二词典中的文字，并基于与上述决定的文字的类似度而从上述第一词典获取用于置换上述罕用字的常用字。

4.根据权利要求3所述的程序，其特征在于，

5.根据权利要求1～4中的任意一项所述的程序，其特征在于，

6.一种信息处理方法，其特征在于，

在处理对象的文书中，辨别不包含于上述信息处理装置所处理的文字标准的罕用字，

基于从使用于语素分析的第一词典生成的置换词典将上述罕用字置换为包含于上述文字标准的常用字，

使用上述第一词典，对上述罕用字被置换成上述常用字的文书进行解析。

7.一种信息处理装置，其特征在于，

具备处理器，

上述处理器执行如下的处理：

在处理对象的文书中，辨别不包含于上述信息处理装置所处理的文字标准的罕用字，基于从使用于语素分析的第一词典生成的置换词典将上述罕用字置换为包含于上述文字标准的常用字，并使用上述第一词典，对上述罕用字被置换成上述常用字的文书进行解析。