CN103294662A - 一致性判断装置及一致性判断方法 - Google Patents
一致性判断装置及一致性判断方法 Download PDFInfo
- Publication number
- CN103294662A CN103294662A CN2012100516868A CN201210051686A CN103294662A CN 103294662 A CN103294662 A CN 103294662A CN 2012100516868 A CN2012100516868 A CN 2012100516868A CN 201210051686 A CN201210051686 A CN 201210051686A CN 103294662 A CN103294662 A CN 103294662A
- Authority
- CN
- China
- Prior art keywords
- sentence
- numerical value
- comparative
- physical quantity
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种一致性判断装置和一致性判断方法,判断对象句与比较句的一致性,从各自包含数值的对象句和比较句中,分别提取物理量名称和修饰词,该修饰词是物理量名称所修饰的词,判断提取的对象句中的物理量名称和修饰词与比较句中的物理量名称和修饰词是否分别相同,在对象句中的物理量名称和修饰词与比较句中的物理量名称和修饰词分别相同的情况下,从对象句和比较句中分别提取与物理量名称对应的数值信息,判断对象句中的数值信息与比较句中的数值信息之间的一致性。由此,能够准确地确定包含数值的句子之间的相似度。
Description
技术领域
本发明涉及一种一致性判断装置及一致性判断方法,尤其涉及判断各自包含数值的对象句与比较句的一致性的一致性判断装置及一致性判断方法。
背景技术
近年来,信息检测技术已经变得非常流行,尤其是文档相似度计算技术被广泛应用。例如,随着科学技术的发展,被发表的论文越来越多。因此,为了判断是否是剽窃论文,各个学会和杂志的评审员会仔细审查论文文档中的数据以及实验结果。再者,随着世界经济的飞速发展,各大企业不得不把经营战略调整成全球化,不得不扩大对外贸易、对外投资。因此,依据输出管理条例对各个企业的输出文档的审查也是必要的。
关于信息检测技术中相似度(一致性)计算的应用,在专利文献1中曾经提出了以下方案。即,专利文献1把文档直接划分成句子,然后利用搜索引擎对被划分的句子的主干进行检索,最后根据得到的对象句与比较句的相似度权重,来判断对象句是否为抄袭。
另外,在非专利文献1中也曾经提出了以下方案。即,非专利文献1针对汉语句子进行分词和词性标注后,分别从句法结构特征、词语语义特征和词形特征三个方面得到特征权重并进行加权计算,来计算两个句子的相似度。
现有技术文献
专利文献1:中国专利申请号200610118150.8,发明名称《一种利用网络资源实现剽窃和格式检查的在线论文管理方法》
非专利文献1:论文《基于语义分析树核的句子相似度计算》(王利局 大连理工大学 中国知网)
但是,在上述现有技术中存在以下技术问题,即:对于包含数值的句子之间的相似度(一致性),没有提出明确的算法,无法做出准确的判断。
对现有技术中的上述技术问题进行举例说明。例如,按照现有技术,将以下对象句与比较句判断为不相同。
对象句:A的身高为1.8米。
比较句:A的身高为180厘米。
但是,实际上在上述对象句和比较句中仅数值和单位不同,而两个句子的意思是相同的。按照现有技术,在判断中出现了错误,无法对包含数值的句子之间的相似度(一致性)做出准确的判断。
发明内容
本发明鉴于现有技术中的上述技术问题而提出,其目的在于,提供一种一致性判断装置及一致性判断方法,在要进行比较的对象句和比较句各自包含数值时,判断对象句与比较句是否一致。
另外,本发明的目的还在于,提供一种一致性判断装置及一致性判断方法,在要进行比较的对象句与比较句的数值单位不同时,判断对象句与比较句是否一致。
另外,本发明的目的还在于,提供一种一致性判断装置及一致性判断方法,在要进行比较的对象句和比较句中包含与数值对应的大小关系时,判断对象句与比较句是否一致。
为了解决上述技术问题,本发明提供一种一致性判断装置,判断对象句与比较句的一致性,其特征在于,具有:第一提取单元,从各自包含数值的对象句和比较句中,分别提取物理量名称和修饰词,该修饰词是所述物理量名称所修饰的词;第一判断单元,判断由所述第一提取单元提取的所述对象句中的物理量名称和修饰词与所述比较句中的物理量名称和修饰词是否分别相同;第二提取单元,在所述第一判断单元判断为所述对象句中的物理量名称和修饰词与所述比较句中的物理量名称和修饰词分别相同的情况下,从所述对象句和所述比较句中,分别提取与所述物理量名称对应的数值信息;以及第二判断单元,判断由所述第二提取单元提取的所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
另外,本发明提供一种一致性判断方法,判断对象句与比较句的一致性,其特征在于,包括:第一提取步骤,从各自包含数值的对象句和比较句中,分别提取物理量名称和修饰词,该修饰词是所述物理量名称所修饰的词;第一判断步骤,判断由所述第一提取步骤提取的所述对象句中的物理量名称和修饰词与所述比较句中的物理量名称和修饰词是否分别相同;第二提取步骤,在所述第一判断步骤判断为所述对象句中的物理量名称和修饰词与所述比较句中的物理量名称和修饰词分别相同的情况下,从所述对象句和所述比较句中,分别提取与所述物理量名称对应的数值信息;以及第二判断步骤,判断由所述第二提取步骤提取的所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
根据本发明的一致性判断装置及一致性判断方法,提取要进行比较的对象句和比较句中的物理量名称和物理量名称所修饰的修饰词,在对象句和比较句中的物理量名称和修饰词分别相同的情况下,比较对象句和比较句中与该物理量名称对应的数值信息的一致性,从而判断对象句与比较句之间的一致性。由此,能够准确地确定包含数值的句子之间的相似度。
在本发明的一致性判断装置中,也可以是,所述第一提取单元具有:成分划分模块,对所述对象句和所述比较句进行分析并划分成分,删除不含名词的成分;物理量名称提取模块,从所述成分中提取物理量名称;以及修饰词提取模块,提取与所述物理量名称所在的成分相邻的成分的中心词,将该中心词作为所述修饰词。
另外,在本发明的一致性判断方法中,也可以是,所述第一提取步骤包括:成分划分步骤,对所述对象句和所述比较句进行分析并划分成分,删除不含名词的成分;物理量名称提取步骤,从所述成分中提取物理量名称;以及修饰词提取步骤,提取与所述物理量名称所在的成分相邻的成分的中心词,将该中心词作为所述修饰词。
根据上述一致性判断装置及一致性判断方法,对于要进行比较的对象句和比较句,划分句子成分,确定物理量名称所在的成分,并确定物理量名称所修饰的修饰词。由此,能够准确地提取句子中的物理量名称和修饰词,从而能够准确地确定包含数值的句子之间的相似度。
在上述一致性判断装置中,也可以是,所述成分划分模块还从所述成分中删除形容词。
另外,在上述一致性判断方法中,也可以是,所述成分划分步骤还从所述成分中删除形容词。
根据上述一致性判断装置及一致性判断方法,在划分的句子成分中,将保留的包含名词的成分中的形容词删除。由此,能够使划分的句子成分简化,从而能够更准确地提取句子中的物理量名称和修饰词。
在本发明的一致性判断装置中,也可以是,所述数值信息至少包括单位和数值;所述第二判断单元具有:变换模块,对所述对象句中的单位和所述比较句中的单位之中的至少一方进行变换,以使所述对象句中的单位与所述比较句中的单位相同,并与该单位的变换相对应地变换数值;以及比较模块,对由所述变换模块变换后的所述对象句中的数值与所述比较句中的数值进行比较,由此来判断所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
在本发明的一致性判断方法中,也可以是,所述数值信息至少包括单位和数值;所述第二判断步骤包括:变换步骤,对所述对象句中的单位和所述比较句中的单位之中的至少一方进行变换,以使所述对象句中的单位与所述比较句中的单位相同,并与该单位的变换相对应地变换数值;以及比较步骤,对由所述变换步骤变换后的所述对象句中的数值与所述比较句中的数值进行比较,由此来判断所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
根据上述一致性判断装置及一致性判断方法,在对象句的数值单位与比较句的数值单位不同时,变换为对象句的数值单位与比较句的数值单位相同,并相应地变换数值。由此,在要进行比较的句子之间的数值单位不同时,也能够准确地确定句子之间的相似度。
在上述一致性判断装置中,也可以是,所述数值信息还包括大小关系;所述第二判断单元还具有数值区间生成模块,该数值区间生成模块根据由所述变换模块变换后的数值和与该数值对应的大小关系,生成数值区间;所述比较模块对由所述数值区间生成模块生成的所述对象句中的数值区间与所述比较句中的数值区间进行比较,由此判断所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
在上述一致性判断方法中,也可以是,所述数值信息还包括大小关系;所述第二判断步骤还包括数值区间生成步骤,该数值区间生成步骤根据由所述变换步骤变换后的数值和与该数值对应的大小关系,生成数值区间;所述比较步骤对由所述数值区间生成步骤生成的所述对象句中的数值区间与所述比较句中的数值区间进行比较,由此判断所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
根据上述一致性判断装置及一致性判断方法,根据对象句和比较句中的大小关系来生成数值区间,通过比较数值区间来判断对象句与比较句之间的一致性。由此,在要进行比较的对象句和比较句中包含与数值对应的大小关系时,也能够准确地确定句子之间的相似度。
在本发明的一致性判断装置中,也可以是,还具有:接收单元,用于输入对象文本和比较文本;存储单元,保存通过所述接收单元输入的对象文本和比较文本;以及句提取单元,将所述存储单元中保存的所述对象文本和比较文本分别划分为句,并从所述对象文本和比较文本中分别提取包含数值的对象句和比较句。
在本发明的一致性判断方法中,也可以是,还包括:接收步骤,用于输入对象文本和比较文本;存储步骤,保存通过所述接收步骤输入的对象文本和比较文本;以及句提取步骤,将所述存储步骤中保存的所述对象文本和比较文本分别划分为句,并从所述对象文本和比较文本中分别提取包含数值的对象句和比较句。
根据上述一致性判断装置及一致性判断方法,从输入的对象文本和比较文本中划分并提取包含数值的对象句和比较句。由此,能够将本发明的一致性判断适用于各种文本、例如学术论文或企业文档之间的相似度比较。
在本发明的一致性判断装置中,也可以是,所述一致性判断装置至少能够适用于汉语和日语;在所述一致性判断装置适用于汉语时,所述第一提取单元利用汉语中的结构助词从所述对象句和比较句中分别提取所述修饰词;在所述一致性判断装置适用于日语时,所述第一提取单元利用日语中的格助词从所述对象句和比较句中分别提取所述修饰词。
在本发明的一致性判断方法中,也可以是,所述一致性判断方法至少能够适用于汉语和日语;在所述一致性判断方法适用于汉语时,所述第一提取步骤利用汉语中的结构助词从所述对象句和比较句中分别提取所述修饰词;在所述一致性判断方法适用于日语时,所述第一提取步骤利用日语中的格助词从所述对象句和比较句中分别提取所述修饰词。
根据上述一致性判断装置及一致性判断方法,利用汉语和日语的语言结构,特别是汉语中的结构助词例如“的”和日语中的格助词例如“の”来提取物理量名称所修饰的修饰词。由此,能够将本发明的一致性判断至少适用于汉语或日语的相似度比较。
发明效果
在判断要进行比较的包含数值的比较句与对象句的一致性时,由于数值与物理量名称一起使用,所以本发明通过分析句子的成分、各成分所包含的数值、数值的单位、物理量名称和物理量名称所修饰的修饰词等之间的关系,能够判断包含数值的比较句与对象句的一致性。本发明可以应用到很多领域,例如论文和文献防剽窃以及输出管理等等。
附图说明
图1是本发明的第一实施方式所涉及的一致性判断装置的模块图。
图2是本发明的第一实施方式所涉及的一致性判断装置所执行的一致性判断方法的流程图。
图3是本发明的第二实施方式中进行单位变换所参照的查找表的示意图。
图4是本发明的第三实施方式中进行区间类型判断及比较的流程图。
图5是本发明的第三实施方式中将大小关系变换为区间的大小关系列表的示意图。
图6是本发明的第四实施方式中适用于文本比较时的流程图。
图7是本发明的具体实施例中对包含数值信息的句子进行比较的流程图。
图8是本发明的具体实施例中提取修饰词的流程图。
具体实施方式
以下对照附图说明本发明的实施方式。其中,以下详细说明的实施方式只用于理解本发明的内容,并不作为对本发明的限定。
1、第一实施方式
以下对照图1、图2来详细说明本发明的第一实施方式。
1.1、一致性判断装置的硬件结构
图1是本发明的第一实施方式所涉及的一致性判断装置的模块图。本发明的第一实施方式所涉及的一致性判断装置1判断对象句与比较句的一致性。其中,对象句指作为判断对象的句子,以下也称为被测句。比较句指作为比较基准的句子,以下也称为源句。一致性判断装置1至少具备由总线相互连接的存储器11、处理器12和输入输出接口13作为硬件结构,典型地例如由计算机、个人数字助手等实现。
存储器11用于存储一致性判断装置在判断一致性时所需要的各种程序、数据,例如存储下述处理器112要执行的程序、从下述输入输出接口13输入的要进行比较的对象句和比较句、由下述处理部112从对象句和比较句中提取的物理量名称、修饰词和数值信息等。存储器11例如可以由ROM、RAM、HDD、存储卡等实现。
处理器12用于判断要进行比较的对象句和比较句之间的一致性。具体而言,处理器12读出并执行存储器11中存储的程序,由此作为第一提取单元121、第一判断单元122、第二提取单元123和第二判断单元124这几个功能单元动作,并读出存储器11中存储的对象句和比较句等,由上述功能单元判断对象句与比较句之间的一致性。处理器112例如可以通过CPU、MPU、集成电路等实现。
输入输出接口13用于从外部向一致性判断装置1输入数据,并将一致性判断装置的判断结果向外部输出。例如,输入输出接口13可以从外部输入对象句和比较句,并将对象句和比较句转发给存储器11。另外,输入输出接口13可以将处理器12的判断结果向外部设备(例如显示器等显示设备)输出,由此将判断结果提供给用户。输入输出接口13例如可以由各种I/O接口来实现。
1.2、一致性判断装置的特征性功能模块
如上所述,本实施方式的一致性判断装置1通过由处理器12执行存储器11中存储的程序,作为第一提取单元121、第一判断单元122、第二提取单元123和第二判断单元124这几个功能单元动作。以下继续对照图1来说明本实施方式的一致性判断装置1的特征性功能模块。
1.2.1、第一提取单元121
第一提取单元121从各自包含数值的对象句和比较句中,分别提取物理量名称和修饰词。在此,修饰词是指物理量名称所修饰的词。其中,物理量名称可以通过在对象句和比较句中搜索预先确定的表示物理量名称的词来提取。修饰词的具体提取方法留待后述。
1.2.2、第一判断单元122
第一判断单元122判断由第一提取单元121提取的对象句中的物理量名称和修饰词与比较句中的物理量名称和修饰词是否分别相同。
1.2.3、第二提取单元123
第二提取单元123在第一判断单元122判断为对象句中的物理量名称和修饰词与比较句中的物理量名称和修饰词分别相同的情况下,从对象句和比较句中分别提取与物理量名称对应的数值信息。
1.2.4、第二判断单元124
第二判断单元124判断由第二提取单元123提取的对象句中的数值信息与比较句中的数值信息之间的一致性。
1.3、一致性判断装置所执行的一致性判断方法
以下对照图2详细说明本实施方式的一致性判断装置所执行的一致性判断方法。
图2是本发明的第一实施方式所涉及的一致性判断装置所执行的一致性判断方法的流程图。如图2所示,本实施方式的一致性判断装置1通过由处理器12执行存储器11中存储的程序,执行下述的一致性判断方法,由此判断从存储器11中读取的要进行比较的对象句与比较句之间的一致性。
1.3.1、第一提取步骤S1
第一提取步骤S1从各自包含数值的对象句和比较句中,分别提取物理量名称和修饰词。在此,该修饰词是指物理量名称所修饰的词。
1.3.2、第一判断步骤S2
第一判断步骤S2判断由第一提取步骤S1提取的对象句中的物理量名称和修饰词与比较句中的物理量名称和修饰词是否分别相同。
1.3.3、第二提取步骤S3
第二提取步骤S3在第一判断步骤S2判断为对象句中的物理量名称和修饰词与比较句中的物理量名称和修饰词分别相同的情况下,从对象句和比较句中,分别提取与物理量名称对应的数值信息。
1.3.4、第二判断步骤S4
第二判断步骤S4判断由第二提取步骤S3提取的对象句中的数值信息与比较句中的数值信息之间的一致性。
1.4、第一实施方式的具体判断例
以下详细说明本实施方式的一致性判断装置和一致性判断方法的具体判断例。
例如,由输入输出接口13输入并存储在存储器11中的对象句和比较句分别如下。
对象句:高大的小明的身高是2.26米。
比较句:高大的小明拥有2.26米的身高。
首先,由第一提取单元121(第一提取步骤S1)从对象句和比较句中分别提取物理量名称和修饰词。作为第一提取单元121(第一提取步骤S1)的具体提取方式,例如可以采用以下方式。即,首先对对象句和比较句进行分析并划分成分,删除不含名词的成分(即删除谓语,在本例中分别为“是”和“拥有”)。接着,从划分的成分中提取物理量名称(在本例中都是“身高”)。最后,提取与物理量名称所在的成分相邻的成分的中心词,将该中心词作为修饰词(在本例中,对象句中物理量名称“身高”的成分为主语,相邻的成分为定语“小明”,比较句中物理量名称“身高”的成分为宾语,在删除了谓语之后相邻的成分为主语“小明”)。因此,从对象句和比较句中提取出来的物理量名称都为身高,修饰词都为小明。
另外,在第一提取单元121(第一提取步骤S1)的上述具体提取方式中,也可以还从成分中删除形容词(在本例中,从对象句和比较句中删除形容词“高大的”)。
接着,第一判断单元122(第一判断步骤S2)判断为对象句中的物理量名称和修饰词与比较句中的物理量名称和修饰词分别相同。
于是,第二提取单元123(第二提取步骤S3)从对象句和比较句中,分别提取与物理量名称对应的数值信息(在本例中,对象句和比较句中都为2.26米)。
最后,第二判断单元124(第二判断步骤S4)判断为对象句中的数值信息与比较句中的数值信息一致,由此判断为对象句与比较句之间一致。
1.5、第一实施方式的效果
根据本实施方式的一致性判断装置及一致性判断方法,提取要进行比较的对象句和比较句中的物理量名称和物理量名称所修饰的修饰词,在对象句和比较句中的物理量名称和修饰词分别相同的情况下,比较对象句和比较句中与该物理量名称对应的数值信息的一致性,从而判断对象句与比较句之间的一致性。由此,能够准确地确定包含数值的句子之间的相似度。
另外,作为提取对象句和比较句中的物理量名称和修饰词的具体方式,可以划分句子成分,确定物理量名称所在的成分,并确定物理量名称所修饰的修饰词。由此,能够准确地提取句子中的物理量名称和修饰词,从而能够准确地确定包含数值的句子之间的相似度。
而且,在上述提取对象句和比较句中的物理量名称和修饰词的具体方式中,在划分的句子成分中,将保留的包含名词的成分中的形容词删除。由此,能够使划分的句子成分简化,从而能够更准确地提取句子中的物理量名称和修饰词。
2、第二实施方式
以下对照图3来详细说明本发明的第二实施方式。
2.1、第二实施方式的特征
本发明的第二实施方式在第一实施方式的基础上,针对对象句的数值单位与比较句的数值单位不同的情况,变换为对象句的数值单位与比较句的数值单位相同,并相应地变换数值。本实施方式的一致性判断装置的整体结构和一致性判断方法的整体流程与第一实施方式类似,在此参照第一实施方式进行说明,重复内容不做赘述。
具体而言,在本实施方式的一致性判断装置中,数值信息至少包括单位和数值;第二判断单元具有:变换模块,对对象句中的单位和比较句中的单位之中的至少一方进行变换,以使对象句中的单位与比较句中的单位相同,并与该单位的变换相对应地变换数值;以及比较模块,对由变换模块变换后的对象句中的数值与比较句中的数值进行比较,由此来判断对象句中的数值信息与比较句中的数值信息之间的一致性。
另外,在本实施方式的一致性判断方法中,所述数值信息至少包括单位和数值;第二判断步骤包括:变换步骤,对对象句中的单位和比较句中的单位之中的至少一方进行变换,以使对象句中的单位与比较句中的单位相同,并与该单位的变换相对应地变换数值;以及比较步骤,对由变换步骤变换后的对象句中的数值与比较句中的数值进行比较,由此来判断对象句中的数值信息与比较句中的数值信息之间的一致性。
2.2、第二实施方式的具体变化方式
作为以上变换单元(变换步骤)的具体变换方式,例如可以使用图3所示的查找表。图3是本发明的第二实施方式中进行单位变换所参照的查找表的示意图。在变换单元(变换步骤)变换对象句和比较句中的单位时,可以按照图3所示的查找表(国际单位换算表),将对象句和比较句中的单位都变换为标准单位,并按照转换关系对对象句和比较句中的数值进行相应的变换。
当然,本实施方式中变换单元(变换步骤)的具体变换方式不限于此。例如,也可以将对象句中的单位变换为比较句中的单位,并利用转换关系对对象句中的数值进行相应的变换。同样,也可以将比较句中的单位变换为对象句中的单位,并利用转换关系对比较句中的数值进行相应的变换。另外,也可以不利用查找表而使用函数关系进行变换。
2.3、第二实施方式的效果
根据本实施方式的一致性判断装置及一致性判断方法,在对象句的数值单位与比较句的数值单位不同时,变换为对象句的数值单位与比较句的数值单位相同,并相应地变换数值。由此,在要进行比较的句子之间的数值单位不同时,也能够准确地确定句子之间的相似度。
3、第三实施方式
以下对照图4、图5来详细说明本发明的第三实施方式。
3.1、第三实施方式的特征
本发明的第三实施方式在第二实施方式的基础上,针对对象句和比较句中还包含与数值对应的大小关系的情况,根据对象句和比较句中的大小关系来生成数值区间,通过比较数值区间来判断对象句与比较句之间的一致性。本实施方式的一致性判断装置的整体结构和一致性判断方法的整体流程与第一、二实施方式类似,在此参照第一、二实施方式进行说明,重复内容不做赘述。
在本实施方式的一致性判断装置中,数值信息还包括大小关系;第二判断单元还具有数值区间生成模块,该数值区间生成模块根据由变换模块变换后的数值和与该数值对应的大小关系,生成数值区间;比较模块对由数值区间生成模块生成的对象句中的数值区间与比较句中的数值区间进行比较,由此判断对象句中的数值信息与比较句中的数值信息之间的一致性。
在本实施方式的一致性判断方法中,数值信息还包括大小关系;第二判断步骤还包括数值区间生成步骤,该数值区间生成步骤根据由变换步骤变换后的数值和与该数值对应的大小关系,生成数值区间;比较步骤对由数值区间生成步骤生成的对象句中的数值区间与比较句中的数值区间进行比较,由此判断对象句中的数值信息与比较句中的数值信息之间的一致性。
3.2、第三实施方式的具体比较方式
以下对照图4、图5来详细说明第三实施方式的具体比较方式。图4是本发明的第三实施方式中进行区间类型判断及比较的流程图。图5是本发明的第三实施方式中将大小关系变换为区间的大小关系列表的示意图。在本具体比较方式中,将对象句和比较句中的与数值对应的大小关系转换为数值区间,并比较对象句和比较句中的数值区间是否存在交集,由此来判断对象句中的数值信息与比较句中的数值信息之间的一致性。
如图4所示,首先,在通过变换步骤统一了对象句与比较句的单位之后,开始区间类型判断及比较(400)。通过图5所示的大小关系列表,判断从源句(比较句)中抽取的大小关系的上限和下限是否都存在(401)。如果不是同时存在,则通过图5所示的大小关系列表,判断被测句(对象句)中的上限和下限是否都存在(402)。如果被测句中上限和下限不是同时存在,则可以判定源句和被测句是两个单区间进行比较(403),所谓的单区间是指上、下限中仅只有一个的区间。比较两个单区间是否有交集的方法首先判断两个单区间是否同时为上限或者下限,如果是的话,则两个区间一定有交集(421),如果不同时存在的话,判断存在下限的单区间的下限是否小于存在上限的区间的上限,如果满足的话,则两个区间一定有交集(421),反之则无交集(422)。
如果源句中的上、下限不是同时存在,而被测句中的上、下限同时存在的话,则要判断被测句中的上、下限是否相等(406),如果不相等的话,则判定单区间的源句和双区间的被测句进行区间比较(407),如果相等的话则判定单区间的源句和数值的被测句进行区间比较(409)。所谓双区间是区间的上、下限同时存在的区间。比较一个单区间和一个双区间是否有交集的方法首先判断单区间的上限或者下限是属于双区间的范围(408),如果属于双区间的范围,则两个区间一定有交集(421),如果不满足双区间的范围,则两个区间没有交集(422)。数值和单区间的比较方法是数值与单区间的上限或者下限的大小比较结果是否满足单区间的大小关系(410),如果满足的话,则两个区间一定有交集(421),反之则无交集(422)。
如果源句的上限和下限同时存在的话,首先要判断源句中的上限和下限是否相等(411),如果相等则判定源句中是一个数值,需要判断被测句中上、下限是否同时都存在(412),如果不同时存在,则是一个数值和单区间的比较(409)。如果被测句中的上,下限同时存在,需要进一步判断被测句中上限和下限是否相等(413),如果不相等的话,则是一个数值和一个双区间的比较(414),其比较方法也是要看数值是否属于原有区间的范围(410),如果满足的话,则两个区间一定有交集(421),反之则无交集(422)。如果被测句中的上、下限相等的话,则是两个数值的比较(415),并把比较结果的大小关系以数值比较结果的方式输出(416)。
如果源句的上限和下限同时存在且不相等的话,要判断被测句中上、下限是否同时存在(417)。如果不是同时存在,则判定是一个单区间和双区间的比较(407)。如果同时存在的话,要判断被测句中区间的上、下限是否相等(418),如果相等,则判定是一个数值和一个双区间的比较(414)。如果不相等,则判定是两个双区间进行比较(419)。两个双区间的比较方法是判定其中一个双区间A的下限是否小于另一个双区间B的上限,并且A的上限大于双区间B的下限(420),如果满足的话,则两个区间一定有交集(421),反之则无交集(422)。
3.3、第三实施方式的区间类型判断及比较的具体实施例
以下结合具体实施例,详细说明上述具体比较方式中的区间类型判断及比较。
3.3.1、区间类型的判断
根据图5所示的大小关系列表,从句子中的大小关系都可以转换成数值区间的上限和下限的形式,所以只要遵循上限和下限的存在情况即可判定区间的类型。
3.3.1.1、单区间判定的方法
如果数值区间的上限和下限不同时存在的情况,此区间一定是单区间。
例1:区间A(a,+∞),区间B(-∞,b)
表1单区间在大小关系列表中的示例
上限 | 下限 | |
区间A | a | N/A |
区间B | N/A | b |
3.3.1.2、双区间判定的方法
如果数值区间的上限和下限同时存在并且不相等的情况,此区间一定是双区间。
例2:区间A[a,b],区间B[a,b),区间C(a,b]
表2 双区间在大小关系列表中的示例
上限 | 下限 | |
区间A | a= | b= |
区间B | a= | b |
区间C | a | b= |
3.3.1.3、数值判定的方法
如果数值区间的上限和下限同时存在并且相等的情况,此区间一定是数值。
表3数值在大小关系列表中的示例
上限 | 下限 | |
数值 | a | a |
3.3.2、各种区间交集判断的方法
3.3.2.1、单区间和单区间的判断方法
如果两个单区间的上限或者下限同时存在的情况下,如下面的例子所示,则两个区间一定有交集。
例1:(a,+∞)和(b,+∞)有交集
例2:(-∞,a)和(-∞,b)有交集
如果两个单区间的上限或者下限不同时存在的情况下,如下面的例子所示,则只需满足单区间的下限小于另个单区间的上限就有交集,反之则无交集
例3:(a,+∞)和(-∞,b)
下限大于上限无交集a>b
下限小于上限有交集a<b
3.3.2.2、单区间和双区间的判断方法
单区间的上限或者下限位于双区间随规定的范围,即单区间的上限或者下限大于双区间的上限并且小于双区间的下限,则一定会有交集,反之则无交集。
例4:(a,∞)和(b,c)
b<a<c有交集
3.3.2.3、单区间和数值的判断方法
数值和单区间的上限或者下限的大小关系满足单区间原来的大小关系的情况,则有交集,反之则无交集。
例5:数值X和(a,∞)原区间大小关系为“>”,ifX>a,有交集
例6:数值X和(∞,a)原区间大小关系为“<”,ifX<a,有交集
3.3.2.4、双区间和双区间判断的方法
两个双区间的判断方法是,如果一个双区间A的下限小于另一个双区间B的上限并且双区间A的上限大于双区间B的下限,则有交集,反之则无交集。
例7:A(a,b)和B(c,d)
只要满足a<d且b>c就有交集
3.3.2.5、双区间和数值的判断方法
如果数值大于双区间的下限并且小于双区间的上限,则说明有交集,反之则无交集。
例8:数值X和区间(a,b)
a<X<b有交集
3.3.2.6、数值和数值的比较方法
数值和数值的比较方法是比较两个数值的大小,并把大小关系作为输出结果输出。
3.4、第三实施方式的效果
根据本实施方式的一致性判断装置及一致性判断方法,根据对象句和比较句中的大小关系来生成数值区间,通过比较数值区间来判断对象句与比较句之间的一致性。由此,在要进行比较的对象句和比较句中包含与数值对应的大小关系时,也能够准确地确定句子之间的相似度。
4、第四实施方式
以下对照图6来详细说明本发明的第四实施方式。
4.1、第四实施方式的特征
本发明的第四实施方式是将上述第一~第三实施方式适用于文本比较的实施方式。其中,本实施方式的一致性判断装置和一致性判断方法基于第一~第三实施方式,在此参照第一~第三实施方式进行说明,重复内容不做赘述。
在本实施方式的一致性判断装置中,还具有:接收单元,用于输入对象文本和比较文本;存储单元,保存通过接收单元输入的对象文本和比较文本;以及句提取单元,将存储单元中保存的对象文本和比较文本分别划分为句,并从对象文本和比较文本中分别提取包含数值的对象句和比较句。
在本实施方式的一致性判断方法中,还包括:接收步骤,用于输入对象文本和比较文本;存储步骤,保存通过接收步骤输入的对象文本和比较文本;以及句提取步骤,将存储步骤中保存的对象文本和比较文本分别划分为句,并从对象文本和比较文本中分别提取包含数值的对象句和比较句。
4.2、第四实施方式的具体比较例
以下对照图6来详细说明本发明的第四实施方式的具体比较例。图6是本发明的第四实施方式中适用于文本比较时的流程图。
如图6所示,首先,开始文本比较流程(100)。对源文档(比较文本)和被测文档(对象文本)以句子为单位进行划分(101),然后对各个句子进行文字相似度计算(102)。根据文字相似度计算结果,选取出相似的源句和被测句(103),并检索相似源句(比较句)和被测句(对象句)中是否含有数值信息(104)。如果不含数值信息,则说明相似源句和被测句的相似程度很高并输出到结果中(106),如含有则还需要进行数值信息的比较(105),然后将数值比较的结果输出到结果中(106)。
在步骤S105的数值信息的比较中,适用本发明的上述第一~第三实施方式的一致性判断方式。另外,在步骤102的文字相似度计算中,可以采用现有的相似度计算方法,基于两个字符串含有共同词形的数量来计算相似度。例如,两个字符串包含名词的数量分别是M和N,然后两个字符串共同名词的数量是NK。相似度SIM如公式1.1所示。
4.3、第四实施方式的效果
根据本实施方式的一致性判断装置及一致性判断方法,从输入的对象文本和比较文本中划分并提取包含数值的对象句和比较句。由此,能够将本发明的一致性判断适用于各种文本、例如学术论文或企业文档之间的相似度比较。
5、实施例1
以下对照图7、图8来说明本发明的实施例1。其中,本实施例1将上述第四实施方式中的文本比较适用于汉语文本比较。
5.1、实施例1的总体流程
在本实施例1中,采用图6所示的文本比较流程。并且,在步骤105中,采用图7所示的一致性判断方法。图7是本发明的具体实施例中对包含数值信息的句子进行比较的流程图,基于上述第三实施方式的一致性判断方法。
首先,通过图6所示的步骤100~104找出相似的源句(比较句)和被测句(对象句)(200),再利用句子划分成分工具(例如Parser、KNP、Cabocha等)将相似的源句和被测句进行句子成分划分(例如主语、谓语、宾语、状语、定语等)(201)。由于物理量名称都是名词,所以在各个成分中进行检索将不含名词的成分过滤掉(例如谓语)(202)。并且由于物理量名称所修饰的词一定是名词,所以将剩余的成分中的形容词删除,减少多余的信息(203)。其次在过滤之后的源句和被测句的句子成分中检索物理量名称所在的位置(204),并找出各个物理量名称所修饰的词即修饰词(205),并且判断源句和被测句的物理量名称及其所修饰的词的一致性(206),如果不一致的话,则源句和被测句不具有可比性,就不需要进行下一步比较且判定源句和被测句不相似并认为源句和被测句不相似(207)。如果一致的话,首先在物理量名称所在的源句和被测句的内容中提取单位和数值进行单位统一换算(208),然后提取位于数值信息相邻前后位置的大小关系(例如大于、大于等于等)(209),并且判断源句和被测句中大小关系的个数是否是一个(210),如果大小关系的个数是一个的话,则直接通过大小关系列表转换成数值区间(212),如果含有多个大小关系的情况下,则先要进行多个区间的合并预算(211),然后得到数值区间(212),通过区间类型的判断方法,选择相应的区间比较方法(213),最后得到两个区间的相符判断结果(214)。
5.2、提取修饰词的具体方式
以下具体说明上述步骤205中提取修饰词的一个具体方式。在本实施例1中,如上述实施方式所述,提取与物理量名称所在的成分相邻的成分的中心词,将该中心词作为所述修饰词。具体而言,在汉语中,通过句子中的结构助词来提取成分的中心词。该结构助词典型地为“的”。以下具体说明如何通过判断“的”字的语义关系来判断成分的中心词。
5.2.1、汉语中“的”字的语义关系
在汉语中,位于“的”字前后的两个词的语义关系主要有领属关系和修饰关系。其中领属关系的形式为“名词(N1)+的+名词(N2)”或者“代词(prep)+的+名词(N)”(代词包括人称代词、指示代词和疑问代词),后面的名词是隶属于前面的名词(N1)或者代词(prep)。在邵敬敏主编的《现代汉语通论》中,领属关系进一步划分为从属关系(例厂长的秘书/同学的妈妈),处属关系(例天上的云彩/室外的温度),时属关系(例当时的情况/过去的历史),质料关系(例老虎皮的坐垫/杉木的扁担),来源关系(例中国的留学生/四川的榨菜),种属关系(例一等奖的奖励/四化的目标),比喻关系(例金刚石的性格/历史的车轮)等。修饰关系的形式为“形容词(adj)+名词(N)”(例漂亮的衣服/干净的房间),前面的形容词是修饰后面的名词的。
多个“的”存在时,领属关系和修饰关系的判定应该遵循两两判定,即位于每个“的”两端的词,按照上述内容进行判定。例“漂亮的小明的妹妹”,首先应该划分为“漂亮的小明”和“小明的妹妹”,由于“漂亮的小明”是“形容词+名词”的结构,所以为修饰关系。“小明的妹妹”是“名词+名词”的形式,所以为领属关系。
5.2.2、基于汉语中“的”字提取修饰词的具体流程
基于汉语的上述语言结构,通过以下具体流程来判断成分的中心词并提取修饰词。图8是本发明的具体实施例中提取修饰词的流程图。
如图8所示,首先,在含有物理量名称的成分中判断是否含有助词“的”字(301)。如果有的话,则要判断“的”字的个数是否是两个以上即大于一个(302)。如果含有两个以上的助词“的”字,则抽取所有由相邻“的”字所分隔的内容(303),然后判定物理量名称所在内容与其他内容的领属关系(304),提取与物理量名称所在内容有领属关系的内容的中心词作为物理量名称所修饰的词(305),并以物理量名称及其修饰的词的结果输出(306)。如果只含有一个“的”字,那么要判断此“的”字的位置是否位于该成分的最后(307),如果位于最后,则说明物理量名称说在的成分是定语,其修饰的词是位于该定语后成分的中心词(308),如果不是位于最后,则要判断此“的”字是否位于物理量名称的前面(309),如果是位于物理量名称的前面,则物理量名称所修饰的词是位于“的”前面的名词(310),并以物理量名称及其修饰的词的结果输出(306)。
如果物理量名称所在成分中不含“的”字,则要提取与物理量名称所在成分前相邻的成分(312),并判断其中含有“的”的个数是否是两个以上即大于一个(313)。如果仅含有一个“的”字,则物理量名称所修饰的词是位于物理量名称所在成分前相邻的内容的中心词(317),并以物理量名称及其修饰的词的结果输出(306)。如果含有两个以上的“的”字,则抽取所有由相邻“的”字所分隔的内容(314),并判断各个内容的领属关系(315),然后提取各个内容中领属关系的中心词(316),并以物理量名称及其修饰的词的结果输出(306)。
5.2.3、基于汉语中“的”字提取修饰词的具体例
5.2.3.1、物理量名称所在成分仅含有一个“的”字
例1:在高度为1米的桌子上,长度为10厘米的铅笔属于田中。
例2:我买了一个桌子,并且桌子腿的高度为1米。
按照图8所示的流程图来提取。首先进行步骤301,判断物理量名称所在的各个成分中是否含有“的”字。例1中,在成分“在高度为一米的桌子上”和“长度为10厘米的”中含有“的”字。接下来进行步骤302“的”字的个数是否为两个以上。本例1中各个成分中“的”字的个数都为一个。所以进行步骤307,判断“的”字是否位于最后的位置。成分“长度为10厘米的”中“的”字位于最后,则物理量名称“长度”所修饰的词为步骤308与物理量名称所在成分后相邻成分的中心词即“铅笔”。而成分“在高度为1米的桌子上”中的“的”不是位于最后的位置,则进入步骤309,判断物理量名称“高度”前是否有“的”字,在本例1中不含有“的”字,则物理量名称“高度”所修饰的词是位于“的”后面的名词“桌子”。
例2中,在成分“桌子腿的高度为1米”中含有“的”并且只含有一个,接下来进行步骤307,判断“的”字是否位于最后的位置。成分“桌子腿的高度为1米”中的“的”字不是位于最后的位置,则进入步骤309,判断物理量名称“高度”前是否有“的”字,本例中2含有“的”字,则物理量名称“高度”所修饰的词是位于“的”前面的名词“桌子腿”。
5.2.3.2、物理量名称所在成分含有两个以上“的”字
例3桌子腿的长度为1米的桌子属于小明。
按照图8所示的流程图来提取。首先进行步骤301,判断物理量名称所在的各个成分中是否含有“的”字。例3中,在成分“桌子腿的长度为1米的”中含有“的”字。接下来进行步骤302“的”字的个数是否为两个以上。本例3中成分“桌子腿的长度为1米的”中“的”字的个数都为两个。所以进行步骤303,抽取所有相邻“的”字所分分隔的内容,并进行步骤304判定物理量名称所在内容与其他内容的领属关系。由于所分隔的内容都可以看做是名词短语,则根据第5小节中“的”字的语义关系判定方法得出,物理量名称“长度”所修饰的词是“桌子腿”。
5.2.3.3、物理量名称所在成分中不含“的”,其前相邻成分中仅含有一个“的”字
例4:小明的身高是170厘米。
按照图8所示的流程图来提取。首先进行步骤301,判断物理量名称所在的各个成分中是否含有“的”字。例4中物理量名称“身高”位于主语中,并且不含“的”字。接下来进行步骤312提取与物理量量名称所在成分前相邻的成分,即“小明的”。然后进行步骤313判断“的”字的个数是否是1个以上的判断。例4中“小明的”含有“的”字的个数不是两个以上,所以进行步骤317提取与物理量名称“身高”所在内容前相邻内容的中心词“小明”,结果为“身高”是修饰“小明”的。
5.2.3.4、物理量名称所在成分中不含“的”,其前相邻成分中含有两个以上“的”字
例5:小明的朋友的身高是170厘米。
按照图8所示的流程图来提取。首先进行步骤301,判断物理量名称所在的各个成分中是否含有“的”字。例5中物理量名称“身高”位于主语中,并且不含“的”字。接下来进行步骤312提取与物理量量名称所在成分前相邻的成分,即“小明的朋友的”。然后进行步骤313“的”的个数是否是1个以上的判断。例5的“小明的朋友的”中含有两个以上的“的”字,则进行步骤314抽取所有由相邻“的”字所分隔的内容。然后进行步骤315判定各个内容的领属关系。根据“的”字的语义关系的判定方法,例5是一个“名词+名词”的结果,“小明”和“朋友”是领属关系,中心词为“朋友”,则物理量名称“身高”所修饰的词是“朋友”。
5.3、实施例1的具体例
首先执行图6的流程,从步骤100开始,源文档和被测文档如下所示。
源文档:小明虽然是一名小学生,但是身高却是170厘米。在新的校服报名册中,长度超过70厘米的校服属于小明。
被测文档:新学期开始,大家都要预定新的校服。在新的校服报名册中,长度为0.6米的校服属于小明。
在步骤101中,对源文档和被测文档进行句子划分,结果如下所示:
源文档:
句子1:小明虽然是一名小学生,但是身高却是170厘米。
句子2:在新的校服报名册中,长度超过70厘米的校服属于小明。
被测文档:
句子1:新学期开始,大家都要预定新的校服。
句子2:在新的校服报名册中,长度为0.6米的校服属于小明。
在步骤102中,根据上述文字相似度计算方法对源文档的源句和被测文档的被测句子进行文字相似度计算。计算结果如表4所示。
表4中文句子相似度计算结果的示例
被测句1 | 被测句2 | |
源句1 | 0 | 0.167 |
源句2 | 0.2 | 0.833 |
在步骤103中,选取相似度较高的源句2和被测句2,如下所示。
源句2:在新的校服报名册中,长度超过70厘米的校服属于小明。
被测句2:在新的校服报名册中,长度为0.6米的校服属于小明。
在步骤104中,判定源句2和被测句2中是否含有数值信息。由于源句2和被测句2中都含有数值信息,则进行步骤105对相似句子进行数值相符比较。
接下来执行图7的流程。
在步骤201中,对源句2和被测句2进行句子成分划分,如表5所示。
表5中文句子成分划分结果
主语 | 谓语 | 宾语 | 定语 | 状语 | |
源句2 | 校服 | 属于 | 小明 | 长度超过70厘米的 | 在新的校服报名册中 |
被测句2 | 校服 | 属于 | 小明 | 长度为0.6米的 | 在新的校服报名册中 |
在步骤202中,过滤各个句子成分中不含名词的成分,即过滤谓语,如表6所示。
表6过滤不含中文名词的成分
主语 | 宾语 | 定语 | 状语 | |
源句2 | 校服 | 小明 | 长度超过70厘米的 | 在新的校服报名册中 |
被测句2 | 校服 | 小明 | 长度为0.6米的 | 在新的校服报名册中 |
在步骤203中,对各个成分分词,并过滤形容词,如表7所示。
表7过滤各个成分中的中文形容词
主语 | 宾语 | 定语 | 状语 | |
源句2 | 校服 | 小明 | 长度超过70厘米的 | 在校服报名册中 |
被测句2 | 校服 | 小明 | 长度为0.6米的 | 在校服报名册中 |
在步骤204中,在剩余成分中搜索物理量名称的位置,如表8所示。其中黑体字为搜索出的物理量名称。
表8中文物理量名称所在的位置
定语 | |
源句2 | 长度超过70厘米的 |
被测句2 | 长度为0.6米的 |
在步骤205中,根据物理量名称所在的位置,找出物理量名称所修饰的词。
接下来执行图8的流程。
在步骤301中,判断物理量名称所在成分是否含有“的”字。如表8所示,物理量名称位于源句2和被测句2的定语中,所以是含有“的”字的。接下来,在步骤302中,判断“的”的个数是否是两个以上。源句2和被测句2中的“的”字只有一个,所以接下来要进行步骤307判断“的”字的位置是否位于最后,由于源句2和被测句2中的“的”字都是位于最后的位置,所以物理量名称“长度”所修饰的词位于与物理量名称成分后相邻内容的中心词“校服”,结果如表9所示。
表9中文物理量名称及其修饰词的结果
物理量名称 | 物理量名称所修饰的词 | |
源句2 | 长度 | 校服 |
被测句2 | 长度 | 校服 |
返回图7,在步骤206中,判断源句2和被测句2中的物理量名称以及其修饰词的一致性。如表9所示,源句2和被测句2的物理量名称都是长度,并且所修饰的词都为校服,所以源句2和被测句2的物理量名称及其修饰词是一致的。
在步骤208中,根据物理量名称所在的内容抽取单位和数值信息,并通过图3所示的查找表(国际单位换算表)进行单位和数值的统一换算,结果如表10所示。
表10单位数值统一换算结果
单位 | 数值信息 | |
源句2 | 米 | 0.7 |
被测句2 | 米 | 0.6 |
在步骤209中,根据图5所示的大小关系列表中的大小关系关键词,提取物理量名称所在成分中数值信息前后的大小关系,结果如表11所示。表11提取大小关系结果
大小关系 | 上限 | 下限 | |
源句2 | 大于 | 0.7 | N/A |
被测句2 | 为 | 0.6 | 0.6 |
在步骤210中,判断源句和被测句中大小关系的个数是否是一个。本例中源句2和被测句2中的大小关系个数都仅为一个,所以直接得到步骤212的数值区间的结果,即(0.7,+∞)和(0.6,0.6)。
在步骤213中,通过区间类型判断方法,选择相应的区间比较方法。
接下来执行图4的流程。
在步骤401中,判断源句2区间的上限和下限是否同时存在,此例中上限和下限不是同时存在,则要进行步骤402判断被测句2区间的上限和下限是否同时存在。由于被测句2区间的上限和下限同时存在,然后进入步骤406判断被测句2区间的上限和下限是否相等。因为被测句2区间的上限和下限是相等的,所以判定出是一个单区间和数值的比较。接下来进行步骤410,判断数值是否满足原有区间的范围,即被测句2中的数值0.6于源句2单区间的上限0.7的大小关系为小于,且不满足源句2中原来的大小关系“大于”,所以进入步骤422,判断为源句2的区间和被测句2的数值没有交集关系。
返回图7的流程,在步骤214中,两个句子虽然形式上相似,但是通过数值判断两个句子不相符。
返回图6的流程,在步骤S106中,判断为两个句子为不相似。
6、实施例2
以下说明本发明的实施例2。其中,本实施例2将上述第四实施方式中的文本比较适用于日语文本比较。其中,实施例2的总体流程与实施例1类似,在此省略重复部分的说明。
6.1、提取修饰词的具体方式
以下具体说明本实施例2中提取修饰词的一个具体方式。在本实施例2中,如上述实施方式所述,提取与物理量名称所在的成分相邻的成分的中心词,将该中心词作为所述修饰词。具体而言,在日语中,通过句子中的格助词来提取成分的中心词。该格助词典型地为“の”。日语中通过判断“の”字的语义关系来判断成分的中心词的方法,与上述实施例1中通过汉语中的“的”字的语义关系来判断成分的中心词的方法相似。
6.2、实施例2的具体例
首先执行图6的流程,从步骤100开始,日文的源文档和被测文档如下所示。
源文档:田中は小学生ですが、身長が170センチになる。新しいユニホ一ムのリストにおいて、長さが70センチ以上のユニホ一ムは田中のものです。
被测文档:新学期の始めのため、皆さんはユニホ一ムを買う。新しいユニホ一ムのリストにおいて、長さが60センチのユニホ一ムは田中のものです。
在步骤101中,对源文档和被测文档进行句子划分,结果如下所示。
源文档:
句子1:田中は小学生ですが、身長が170センチになる。
句子2:新しいユニホ一ムのリストにおいて、長さが70センチ以上のユニホ一ムは田中のものです。
被测文档:
句子1:新学期の始めのため、皆さんはユニホ一ムを買う。
句子2:新しいユニホ一ムのリストにおいて、長さが60センチのユニホ一ムは田中のものです。
在步骤102中,根据文字相似度计算方法对源文档的源句和被测文档的被测句子进行文字相似度计算。计算结果如表12所示。
表12日文句子相似度计算结果的示例
被测句1 | 被测句2 | |
源句1 | 0 | 0.167 |
源句2 | 0.2 | 0.833 |
在步骤103中,选取相似度较高的源句2和被测句2,如下所示。
源句2:新しいユニホ一ムのリストにおいて、長さが70センチ以上のユニホ一ムは田中のものです。
被测句2:新しいユニホ一ムのリストにおいて、長さが60センチのユニホ一ムは田中のものです。
在步骤104中,判定源句2和被测句2中是否含有数值信息。由于源句2和被测句2中都含有数值信息,则进行步骤105对相似句子进行数值相符比较。
接着执行图7的流程。
在步骤201中,对源句2和被测句2进行句子成分划分,如表13所示。
表13句子成分划分结果
在步骤202中,过滤各个句子成分中不含名词的成分,即过滤谓语,如表14所示。
表14过滤不含名词的成分
在步骤203中,对各个成分分词,并过滤形容词,如表15所示。
表15过滤各个成分中的形容词
在步骤204中,在剩余成分中搜索物理量名称的位置,如表16所示。其中,黑体字为提取的物理量名称。
表16物理量名称所在的位置
定语 | |
源句2 | 長さが70センチ以上の |
被测句2 | 長さが60センチの |
在步骤205中,根据物理量名称所在的位置,找出物理量名称所修饰的词。
接着执行图8所示的流程。在步骤301中,判断物理量名称所在成分是否含有“の”字。如表16所示,物理量名称位于源句2和被测句2的定语中,所以是含有“の”字的。接下来,在步骤302中,判断“の”的个数是否是两个以上。源句2和被测句2中的“の”字只有一个,所以接下来要进行步骤307判断“の”字的位置是否位于最后,由于源句2和被测句2中的“の”字都是位于最后的位置,所以物理量名称“長さ(长度)”所修饰的词位于与物理量名称成分后相邻内容的中心词“ユニホ一ム(校服)”,结果如表17所示。
表17物理量名称及其修饰词的结果
物理量名称 | 物理量名称所修饰的词 | |
源句2 | 長さ | ユニホ一ム |
被测句2 | 長さ | ユニホ一ム |
返回图7所示的流程。在步骤206中,判断源句2和被测句2中的物理量名称以及其修饰词的一致性。如表17所示,源句2和被测句2的物理量名称都是长度,并且所修饰的词都为校服,所以源句2和被测句2的物理量名称及其修饰词是一致的。
在步骤208中,根据物理量名称所在的内容抽取单位和数值信息,并通过图3所示的国际单位换算表进行单位和数值的统一换算,结果如表18所示。
表18单位数值统一换算结果
单位 | 数值信息 | |
源句2 | 米 | 0.7 |
被测句2 | 米 | 0.6 |
在步骤209中,根据图5所示的大小关系列表中的大小关系关键词,提取物理量名称所在成分中数值信息前后的大小关系,结果如表19所示。
表19提取大小关系结果
大小关系 | 上限 | 下限 | |
源句2 | 大于 | 0.7 | N/A |
被测句2 | 为 | 0.6 | 0.6 |
在步骤210中,判断源句和被测句中大小关系的个数是否是一个。本例中源句2和被测句2中的大小关系个数都仅为一个,所以直接得到步骤212的数值区间的结果,即(0.7,+∞)和(0.6,0.6)。
在步骤213中,通过区间类型判断方法,选择相应的区间比较方法。
接下来执行图4所示的流程。
在步骤401中,判断源句2区间的上限和下限是否同时存在,此例中上限和下限不是同时存在,则要进行步骤402,判断被测句2区间的上限和下限是否同时存在。由于被测句2区间的上限和下限同时存在,然后进入步骤406判断被测句2区间的上限和下限是否相等。因为被测句2区间的上限和下限是相等的,所以判定出是一个单区间和数值的比较。接下来进行步骤410,判断数值是否满足原有区间的范围,即被测句2中的数值0.6于源句2单区间的上限0.7的大小关系为小于,且不满足源句2中原来的大小关系“大于”,所以进入步骤422源句2的区间和被测句2的数值没有交集关系。
返回图7的流程,在步骤214中,两个句子虽然形式上相似,但是通过数值判断两个句子不相符。
返回图6的流程,在步骤S106中,判断为两个句子为不相似。
7.补充
以上详细说明了本发明的几个实施方式和实施例,但本发明不限于此,能够在不脱离本发明主旨的范围内进行各种变更、组合和删除。而且,通过变更、组合和删除而得到的实施方式也包括在本发明的范围之内。
在上述第三实施方式中,首先由第二实施方式统一对象句和比较句的单位。但是,如果对象句与比较句中数值的单位相同或没有单位,则当然也可以基于第一实施方式,直接将与数值对应的大小关系转换为数值区间来比较。
在上述第三实施方式中,在对象句与比较句的数值区间有交集的情况下判断为对象句与比较句相似。但是,也可以仅在对象句与比较句的数值区间完全一致的情况下判断为对象句与比较句相似。通过改变判断的基准,能够灵活掌握一致性判断的尺度。
在上述实施例1和实施例2中,分别将第四实施方式的文本比较适用于汉语和日语。但是,显然也可以将第一~第三实施方式的一致性判断适用于汉语和日语。另外,对于与汉语和日语的语言结构相似的其他语言,也显然能够适用本发明。
Claims (14)
1.一种一致性判断装置,判断对象句与比较句的一致性,其特征在于,具有:
第一提取单元,从各自包含数值的对象句和比较句中,分别提取物理量名称和修饰词,该修饰词是所述物理量名称所修饰的词;
第一判断单元,判断由所述第一提取单元提取的所述对象句中的物理量名称和修饰词与所述比较句中的物理量名称和修饰词是否分别相同;
第二提取单元,在所述第一判断单元判断为所述对象句中的物理量名称和修饰词与所述比较句中的物理量名称和修饰词分别相同的情况下,从所述对象句和所述比较句中,分别提取与所述物理量名称对应的数值信息;以及
第二判断单元,判断由所述第二提取单元提取的所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
2.如权利要求1所述的一致性判断装置,其特征在于,
所述第一提取单元具有:
成分划分模块,对所述对象句和所述比较句进行分析并划分成分,删除不含名词的成分;
物理量名称提取模块,从所述成分中提取物理量名称;以及
修饰词提取模块,提取与所述物理量名称所在的成分相邻的成分的中心词,将该中心词作为所述修饰词。
3.如权利要求2所述的一致性判断装置,其特征在于,
所述成分划分模块还从所述成分中删除形容词。
4.如权利要求1所述的一致性判断装置,其特征在于,
所述数值信息至少包括单位和数值;
所述第二判断单元具有:
变换模块,对所述对象句中的单位和所述比较句中的单位之中的至少一方进行变换,以使所述对象句中的单位与所述比较句中的单位相同,并与该单位的变换相对应地变换数值;以及
比较模块,对由所述变换模块变换后的所述对象句中的数值与所述比较句中的数值进行比较,由此来判断所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
5.如权利要求4所述的一致性判断装置,其特征在于,
所述数值信息还包括大小关系;
所述第二判断单元还具有数值区间生成模块,该数值区间生成模块根据由所述变换模块变换后的数值和与该数值对应的大小关系,生成数值区间;
所述比较模块对由所述数值区间生成模块生成的所述对象句中的数值区间与所述比较句中的数值区间进行比较,由此判断所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
6.如权利要求1所述的一致性判断装置,其特征在于,还具有:
接收单元,用于输入对象文本和比较文本;
存储单元,保存通过所述接收单元输入的对象文本和比较文本;以及
句提取单元,将所述存储单元中保存的所述对象文本和比较文本分别划分为句,并从所述对象文本和比较文本中分别提取包含数值的对象句和比较句。
7.如权利要求1~6中任一项所述的一致性判断装置,其特征在于,
所述一致性判断装置至少能够适用于汉语和日语;
在所述一致性判断装置适用于汉语时,所述第一提取单元利用汉语中的结构助词从所述对象句和比较句中分别提取所述修饰词;
在所述一致性判断装置适用于日语时,所述第一提取单元利用日语中的格助词从所述对象句和比较句中分别提取所述修饰词。
8.一种一致性判断方法,判断对象句与比较句的一致性,其特征在于,包括:
第一提取步骤,从各自包含数值的对象句和比较句中,分别提取物理量名称和修饰词,该修饰词是所述物理量名称所修饰的词;
第一判断步骤,判断由所述第一提取步骤提取的所述对象句中的物理量名称和修饰词与所述比较句中的物理量名称和修饰词是否分别相同;
第二提取步骤,在所述第一判断步骤判断为所述对象句中的物理量名称和修饰词与所述比较句中的物理量名称和修饰词分别相同的情况下,从所述对象句和所述比较句中,分别提取与所述物理量名称对应的数值信息;以及
第二判断步骤,判断由所述第二提取步骤提取的所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
9.如权利要求8所述的一致性判断方法,其特征在于,
所述第一提取步骤包括:
成分划分步骤,对所述对象句和所述比较句进行分析并划分成分,删除不含名词的成分;
物理量名称提取步骤,从所述成分中提取物理量名称;以及
修饰词提取步骤,提取与所述物理量名称所在的成分相邻的成分的中心词,将该中心词作为所述修饰词。
10.如权利要求9所述的一致性判断方法,其特征在于,
所述成分划分步骤还从所述成分中删除形容词。
11.如权利要求8所述的一致性判断方法,其特征在于,
所述数值信息至少包括单位和数值;
所述第二判断步骤包括:
变换步骤,对所述对象句中的单位和所述比较句中的单位之中的至少一方进行变换,以使所述对象句中的单位与所述比较句中的单位相同,并与该单位的变换相对应地变换数值;以及
比较步骤,对由所述变换步骤变换后的所述对象句中的数值与所述比较句中的数值进行比较,由此来判断所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
12.如权利要求11所述的一致性判断方法,其特征在于,
所述数值信息还包括大小关系;
所述第二判断步骤还包括数值区间生成步骤,该数值区间生成步骤根据由所述变换步骤变换后的数值和与该数值对应的大小关系,生成数值区间;
所述比较步骤对由所述数值区间生成步骤生成的所述对象句中的数值区间与所述比较句中的数值区间进行比较,由此判断所述对象句中的数值信息与所述比较句中的数值信息之间的一致性。
13.如权利要求8所述的一致性判断方法,其特征在于,还包括:
接收步骤,用于输入对象文本和比较文本;
存储步骤,保存通过所述接收步骤输入的对象文本和比较文本;以及
句提取步骤,将所述存储步骤中保存的所述对象文本和比较文本分别划分为句,并从所述对象文本和比较文本中分别提取包含数值的对象句和比较句。
14.如权利要求8~13中任一项所述的一致性判断方法,其特征在于,
所述一致性判断方法至少能够适用于汉语和日语;
在所述一致性判断方法适用于汉语时,所述第一提取步骤利用汉语中的结构助词从所述对象句和比较句中分别提取所述修饰词;
在所述一致性判断方法适用于日语时,所述第一提取步骤利用日语中的格助词从所述对象句和比较句中分别提取所述修饰词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210051686.8A CN103294662B (zh) | 2012-03-01 | 2012-03-01 | 一致性判断装置及一致性判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210051686.8A CN103294662B (zh) | 2012-03-01 | 2012-03-01 | 一致性判断装置及一致性判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103294662A true CN103294662A (zh) | 2013-09-11 |
CN103294662B CN103294662B (zh) | 2016-01-20 |
Family
ID=49095556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210051686.8A Expired - Fee Related CN103294662B (zh) | 2012-03-01 | 2012-03-01 | 一致性判断装置及一致性判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103294662B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824847A (zh) * | 2015-01-09 | 2016-08-03 | 国网浙江省电力公司 | 一种信息整合的质量评估方法 |
CN110309263A (zh) * | 2019-06-06 | 2019-10-08 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于语义的工作属性文本内容冲突判断方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110934A (ja) * | 1992-09-25 | 1994-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 量の絶対的な度合判断処理方式 |
CN101685455A (zh) * | 2008-09-28 | 2010-03-31 | 华为技术有限公司 | 数据检索的方法和系统 |
-
2012
- 2012-03-01 CN CN201210051686.8A patent/CN103294662B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110934A (ja) * | 1992-09-25 | 1994-04-22 | Nippon Telegr & Teleph Corp <Ntt> | 量の絶対的な度合判断処理方式 |
CN101685455A (zh) * | 2008-09-28 | 2010-03-31 | 华为技术有限公司 | 数据检索的方法和系统 |
Non-Patent Citations (1)
Title |
---|
周法国 等: "句子相似度计算新方法及在问答系统中的应用", 《计算机工程与应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824847A (zh) * | 2015-01-09 | 2016-08-03 | 国网浙江省电力公司 | 一种信息整合的质量评估方法 |
CN105824847B (zh) * | 2015-01-09 | 2019-08-16 | 国网浙江省电力公司 | 一种信息整合的质量评估方法 |
CN110309263A (zh) * | 2019-06-06 | 2019-10-08 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于语义的工作属性文本内容冲突判断方法及装置 |
CN110309263B (zh) * | 2019-06-06 | 2021-12-17 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于语义的工作属性文本内容冲突判断方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103294662B (zh) | 2016-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN102708100B (zh) | 挖掘相关实体词的关系关键词的方法和装置及其应用 | |
CN104991891B (zh) | 一种短文本特征提取方法 | |
CN107832229A (zh) | 一种基于nlp的系统测试用例自动生成方法 | |
CN102298642B (zh) | 文本信息抽取方法和系统 | |
CN103473338B (zh) | 网页内容抽取方法和网页内容抽取系统 | |
US20180052823A1 (en) | Hybrid Classifier for Assigning Natural Language Processing (NLP) Inputs to Domains in Real-Time | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
CN104978314B (zh) | 媒体内容推荐方法及装置 | |
Patel et al. | Hybrid stemmer for Gujarati | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
CN103150381B (zh) | 一种高精度汉语谓词识别方法 | |
CN106445990A (zh) | 事件本体构建方法 | |
Al-Jumaily et al. | A real time Named Entity Recognition system for Arabic text mining | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN106933972A (zh) | 利用自然语言处理技术定义数据元素的方法以及装置 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN105095091A (zh) | 一种基于倒排索引技术的软件缺陷代码文件定位方法 | |
Pala et al. | Derivancze—Deriv ational An alyzer of Cze ch | |
CN110276079A (zh) | 一种词库建立方法、信息检索方法及对应的系统 | |
Singh et al. | Statistical tagger for Bhojpuri (employing support vector machine) | |
CN103294662B (zh) | 一致性判断装置及一致性判断方法 | |
CN103617265A (zh) | 一种基于本体语义信息的本体查询引擎优化系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160120 Termination date: 20170301 |