CN107704452A - 泰语术语提取的方法及装置 - Google Patents

泰语术语提取的方法及装置 Download PDF

Info

Publication number
CN107704452A
CN107704452A CN201710982767.2A CN201710982767A CN107704452A CN 107704452 A CN107704452 A CN 107704452A CN 201710982767 A CN201710982767 A CN 201710982767A CN 107704452 A CN107704452 A CN 107704452A
Authority
CN
China
Prior art keywords
thai
word
comentropy
character string
language character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710982767.2A
Other languages
English (en)
Other versions
CN107704452B (zh
Inventor
张凯
闫昊
车双武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Original Assignee
TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd filed Critical TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority to CN201710982767.2A priority Critical patent/CN107704452B/zh
Publication of CN107704452A publication Critical patent/CN107704452A/zh
Application granted granted Critical
Publication of CN107704452B publication Critical patent/CN107704452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了泰语术语提取的方法及装置,属于信息检索技术领域。该方法包括:从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取所述第一泰语词语后的所述待处理泰语文档确定为待识别泰语文档;对所述待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语;将所述第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计所述待处理泰语文档中每个待提取泰语词语的出现频数;将所述出现频数满足设定条件的所述待提取泰语词语确定为泰语术语,并进行提取。这样,可通过信息熵处理,从泰语文档中识别并提取泰语术语,提高了泰语术语提取的效率和准确率,以及泰语文档的阅读速度。

Description

泰语术语提取的方法及装置
技术领域
本发明涉及信息检索技术领域,特别涉及泰语术语提取的方法及装置。
背景技术
随着互联网的飞速发展,越来越多的信息呈爆炸趋势,信息量不断上升。面对海量的大数据用户如何把握某篇文章的主题思想是节约读者时间、提高阅读速度的关键问题。文章的术语作为文章的主题和作者思想的体现能够有效解决问题。然而,若采取人工标记方法进行术语标注,不仅浪费时间和精力、效率低下,而且主观能动性较大。因此,术语的提取带来了较为重要的现实意义。
泰语(),也称傣语(Dai language),是傣泰民族的语言,属于东亚语系/汉藏语系的一种语言。全球有约6800万人口使用泰语。泰语的文档中,词与词之间不用标点,不留空格,一句话从头到尾连续不断的拼写,一般,以空两个字母的间隔或句子当中的小停顿表示一个句子。这样,泰语术语的提取,很难像英语和汉语那样,采用停用词和分词的方式,或者依靠词频、词语长度、空格或标点符号等方式进行提取,这些方式忽略了文本语义信息和结构信息,从而导致了术语的语义和结构信息的缺失。即使能够提取出来,展示出来的词组也可能是语义不足或结构化缺失,导致提取出来的术语没有任何意义、语义相似度也相差极点。
发明内容
本发明实施例提供了一种泰语术语提取的方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种泰语术语提取的方法,包括:
从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取所述第一泰语词语后的所述待处理泰语文档确定为待识别泰语文档;
对所述待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语;
将所述第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计所述待处理泰语文档中每个待提取泰语词语的出现频数;
将所述出现频数满足设定条件的所述待提取泰语词语确定为泰语术语,并进行提取。
本发明一实施例中,所述对所述待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语包括:
根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合;
根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合;
从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的第二泰语词语。
本发明一实施例中,当所述信息熵处理参数值包括出现频数、凝固程度值、以及信息熵自由度值时,所述根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合包括:
根据出现频数超过设定频数的切片泰文字符串,形成第一待输出切片集合;
根据公式(2),确定所述第一待输出切片集合中当前切片泰文字符串的凝固程度值,并根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合;
根据公式(3),确定当前切片泰文字符串的左邻字信息熵和右邻字信息熵,根据公式(4),将所述左邻字信息熵和右邻字信息熵中的较小值,确定为所述当前切片泰文字符串的信息熵自由度值,并根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合;
其中,Pi为当前切片泰文字符串的出现频数,Pij为当前切片泰文字符串中对应的子切片泰文字符串的出现频数,co为凝固程度值;
其中,Pi为每个切片泰文字符串的出现频数,H(U)为信息熵;
free=min{H(U)1,H(U)2,...H(U)n}---------------公式(4)
其中,H(U)为信息熵,free为信息熵自由度值。
本发明一实施例中,所述从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的第二泰语词语包括:
根据出现频率的高低对所述词汇输出切片集合中的每个切片泰文字符串进行前后排序;
将位于最前方的设定个数的切片泰文字符串确定为识别出的第二泰语词语。
本发明一实施例中,所述将所述出现频数满足设定条件的所述待提取泰语词语确定为泰语术语包括:
将泰文字符串长度小于设定长度的所述待提取泰语词语确定为第一待提取泰语词语;
根据出现频率的高低对每个第一待提取泰语词语进行前后排序;
将位于最前方的设定个数的所述第一待提取泰语词语确定为所述泰语术语。
根据本发明实施例的第二方面,提供一种泰语术语提取的装置,包括:
提取分词单元,用于从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取所述第一泰语词语后的所述待处理泰语文档确定为待识别泰语文档;
信息熵识别单元,用于对所述待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语;
统计处理单元,用于将所述第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计所述待处理泰语文档中每个待提取泰语词语的出现频数;
确定提取单元,用于将所述出现频数满足设定条件的所述待提取泰语词语确定为泰语术语,并进行提取。
本发明一实施例中,所述信息熵识别单元包括:
过滤分割模块,用于根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合;
信息熵刷选模块,用于根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合;
词语确定模块,用于从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的第二泰语词语。
本发明一实施例中,所述信息熵刷选模块,具体用于根据出现频数超过设定频数的切片泰文字符串,形成第一待输出切片集合;根据公式(2),确定所述第一待输出切片集合中当前切片泰文字符串的凝固程度值,并根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合;根据公式(3),确定当前切片泰文字符串的左邻字信息熵和右邻字信息熵,根据公式(4),将所述左邻字信息熵和右邻字信息熵中的较小值,确定为所述当前切片泰文字符串的信息熵自由度值,并根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合;
其中,Pi为当前切片泰文字符串的出现频数,Pij为当前切片泰文字符串中对应的子切片泰文字符串的出现频数,co为凝固程度值;
其中,Pi为每个切片泰文字符串的出现频数,H(U)为信息熵;
free=min{H(U)1,H(U)2,...H(U)n}---------------公式(4)
其中,H(U)为信息熵,free为信息熵自由度值。
本发明一实施例中,所述词语确定模块,具体用于根据出现频率的高低对所述词汇输出切片集合中的每个切片泰文字符串进行前后排序;将位于最前方的设定个数的切片泰文字符串确定为识别出的第二泰语词语。
本发明一实施例中,所述确定提取单元,具体用于将泰文字符串长度小于设定长度的所述待提取泰语词语确定为第一待提取泰语词语;根据出现频率的高低对每个第一待提取泰语词语进行前后排序;将位于最前方的设定个数的所述第一待提取泰语词语确定为所述泰语术语。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,可通过设定泰语词典从泰语文档中识别出第一泰语词语,并通过信息熵处理,从泰语文档中识别出第二泰语词语,从而,从第一泰语词语和第二泰语词语中提取术语,这样,可比较准确和快速地提取泰语术语,使得用户可快速把握泰语文档的主题思想,从而,提高用户阅读速度,并节省阅读时间。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种泰语术语提取方法的流程图;
图2是根据一示例性实施例示出的一种泰语词语识别方法的流程图;
图3是根据一示例性实施例示出的一种泰语术语提取方法的流程图;
图4是根据一示例性实施例示出的一种泰语术语提取装置的框图;
图5是根据一示例性实施例示出的一种泰语术语提取装置的框图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言,由于其与实施例公开的部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
泰语文档中,词与词之间不用标点,不留空格,一句话从头到尾连续不断的拼写,较难从泰文文档中识别出泰语词语,并进行泰语术语的提取。本发明实施例中,可通过设定泰语词典从泰语文档中识别出第一泰语词语,并通过信息熵处理,从泰语文档中识别出第二泰语词语,从而,从第一泰语词语和第二泰语词语中提取术语,这样,可比较准确和快速地提取泰语术语,使得用户可快速把握泰语文档的主题思想,从而,提高用户阅读速度,并节省阅读时间。
图1是根据一示例性实施例示出的一种泰语术语提取方法的流程图。如图1所示,泰语术语提取的过程包括:
步骤101:从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取第一泰语词语后的待处理泰语文档确定为待识别泰语文档。
本发明实施例中,现有的泰语词典可为设定泰语词典,通过设定泰语词典,对待处理泰语文档进行匹配,从而,可待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语。有任何一个泰语词语匹配就提取出来,并进行存储。然后,将提取第一泰语词语后的待处理泰语文档确定为待识别泰语文档。
步骤102:对待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语。
本发明实施例可采用信息熵处理的方式,从待识别泰语文档中自动发现可能成词的语言片段,并可将发现的语言片段识别为第二泰语词语。
步骤103:将第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计待处理泰语文档中每个待提取泰语词语的出现频数。
由于已经从待处理泰语文档中识别出第一泰语词语和第二泰语词语,因此,可将这些第一泰语词语和第二泰语词语确定为待提取泰语词语。并在待处理泰语文档中匹配待提取泰语词语,获得每个待提取泰语词语的出现频数。
步骤104:将出现频数满足设定条件的待提取泰语词语确定为泰语术语,并进行提取。
这里,可只根据出现频数,确定泰语术语,可包括:根据出现频率的高低对每个待提取泰语词语进行前后排序;并将位于最前方的设定个数的待提取泰语词语确定为泰语术语。或者,可根据泰文字符串长度以及出现频数,确定泰语术语,可包括:将泰文字符串长度小于设定长度的待提取泰语词语确定为第一待提取泰语词语;根据出现频率的高低对每个第一待提取泰语词语进行前后排序;将位于最前方的设定个数的第一待提取泰语词语确定为泰语术语。
可见,本发明实施例中,可通过设定泰语词典从泰语文档中识别出第一泰语词语,并通过信息熵处理,从泰语文档中识别出第二泰语词语,从而,从第一泰语词语和第二泰语词语中提取术语,这样,可比较准确和快速地提取泰语术语,使得用户可快速把握泰语文档的主题思想,从而,提高用户阅读速度,并节省阅读时间。
本发明实施例中,需通过信息熵处理,从泰语文档中识别出第二泰语词语,这是提高术语速度以及准确率的关键,下面将具体描述步骤102中对待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语的过程,即泰语词语识别的过程。
图2是根据一示例性实施例示出的一种泰语词语识别方法的流程图。如图2所示,泰语词语识别的过程包括:
步骤201:根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合。
用户在获取泰语文档的信息时,需识别该泰语文档中的词语,即被提取信息的泰语文档即为待识别泰语文档。待识别泰语文档中主要的字符都是泰语字符,但也可能存在一些数字信息,网址信息,邮箱信息,英文字符等等,这些信息需过滤,因此,需对待识别泰语文档进行过滤处理,形成只包括泰文字符的第一泰语文档。
泰语文档中,词与词之间不用标点,不留空格,一句话从头到尾连续不断的拼写,因此,泰语文档可分成若干短路,进一步分割,则可分割成若干短句,短句则由连续的泰语字符组成,因此,可根据设定步长,对第一泰语文档中的至少一个泰语短句进行分割,形成包括至少一个切片泰文字符串的切片集合。
例如:待识别泰语文档进行过滤处理后,形成了第一泰语文档D1,而D1中的一个泰语短句Si,i=1、2、…n。可根据设定步长对泰语短句D1进行分割,形成一个、两个、或多个切片泰文字符串。若Si包括若按步长step=1进行切分,则对应的切片集合若按步长step=2进行切分,则对应的切片集合若按步长step=3进行切分,则对应的切片集合依次可对每个泰语短句Si进行切片分割处理,形成对应的切片集合M,包括一个、两个或多个切片泰文字符串。
步骤202:根据每个切片泰文字符串的信息熵处理参数值,对切片集合进行刷选,形成词汇输出切片集合。
本发明实施例中,需对切片集合中的每个切片泰文字符串进行信息熵处理,然后,根据对应的信息熵处理参数值,对切片集合进行刷选,形成词汇输出切片集合。其中,信息熵处理参数值包括出现频数、凝固程度值、以及信息熵自由度值中的至少一种。出现频数用以指示切片泰文字符串的出现频率,出现频数越高,表明该切片泰文字符串的出现频率也大。一个切片泰文字符串可能包一个词,也可能是两个或多个词构成的词组,因此,凝固程度值用以指示切片泰文字符串是一个词的概率,凝固程度值越大则表示该切片泰文字符串是一个词的概率越高。而信息熵是用来描述信源的不确定度。通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之就大。若信源符号有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E),可称为信息熵。这里,切片泰文字符串有对应的左邻信息以及右邻信息时,可采用信息熵自由度值来指示切片泰文字符串对应的信息源确定性。
本发明实施例中,可采用一个、两个或多个信息熵处理参数值来对切片集合进行刷选,形成词汇输出切片集合。例如:根据出现频数超过设定频数的切片泰文字符串,形成词汇输出切片集合。或者,根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合等等。为进一步,提高泰语术语提取的精度,可根据出现频数、凝固程度值、以及信息熵自由度值对切片集合进行刷选,形成词汇输出切片集合。
具体可包括:切片集合M中有一个、两个或多个切片泰文字符串,可统计每个切片泰文字符串的出现频数,然后,根据出现频数超过设定频数的切片泰文字符串,形成第一待输出切片集合。
其中,可根据公式(1)来确定每个切片泰文字符串的出现频数。
Pi=Wi/∑MWi,--------------公式(1)
其中,Wi为每个切片泰文字符串的频度,Pi为每个切片泰文字符串的出现频数,M为切片集合。
Wi为每个切片泰文字符串的频度,表示切片泰文字符串在分割处理过程中出现的次数。这样,设定频数为A,将每个切片泰文字符串的出现频数Pi与设定频数A进行比较,若当前切片泰文字符串的出现频数Pi大于A,则可将当前切片泰文字符串Pi放入第一待输出切片集合中。这样,通过出现频数进行了第一刷选后,形成了第一待输出切片集合。
出现频数较高的切片泰文字符串有可能是一个词,或者是两个或多个词构成的词组。因此,还需对第一待输出切片集合进行进一步的刷选。本发明实施例中,可确定第一待输出切片集合中每个切片泰文字符串的凝固程度值,并根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合。
其中,可根据公式(2),确定第二待输出切片集合中当前切片泰文字符串的凝固程度值;
其中,Pi为当前切片泰文字符串的出现频数,Pij为当前切片泰文字符串中对应的子切片泰文字符串的出现频数,co为凝固程度值。
本实施例中,出现频数用以指示切片泰文字符串的出现频率,即Pi可具体用当前切片泰文字符串的概率来指示。例如:当前切片泰文字符串对应的子切片泰文字符串分别为 其中,当前切片泰文字符串的概率P=0.0005,而子切片泰文字符串的概率P11=0.0002,子切片泰文字符串的概率P12=0.0003等等,根据公式(2),即可确定当前切片泰文字符串的凝固程度值co。
然后,将每个切片泰文字符串的凝固程度值与第一设定值进行比较,若当前切片泰文字符串的凝固程度值大于第一设定值,则可将该当前切片泰文字符串放入第二待输出切片集合中,即根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合。
还需根据信息熵对第二待输出切片集合中每个切片泰文字符串的信息熵自由度值,对第二待输出切片集合进行进一步的刷选。本发明实施例中,确定第二待输出切片集合中每个切片泰文字符串的信息熵自由度值,并根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合。
其中,可根据公式(3),确定当前切片泰文字符串的左邻字信息熵和右邻字信息熵;然后,根据公式(4),将左邻字信息熵和右邻字信息熵中的较小值,确定为当前切片泰文字符串的信息熵自由度值。
其中,Pi为每个切片泰文字符串的出现频数,H(U)为信息熵;
free=min{H(U)1,H(U)2,...H(U)n}---------------公式(4)
其中,H(U)为信息熵,free为信息熵自由度值。
通过公式(3)可得到多个左邻字信息熵H(U)和右邻字信息熵H(U),即H(U)1,H(U)2,H(U)3,…H(U)n,然后可通过公式(4)得到多个信息熵H(U)中的最小值,从而,获得信息熵自由度值。确定第二待输出切片集合中每个切片泰文字符串的信息熵自由度值后,可将每个切片泰文字符串的信息熵自由度值与第二设定值进行比较,若当前切片泰文字符串的信息熵自由度值大于第二设定值时,即可将当前切片泰文字符串加入词汇输出切片集合中,即根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合。
上述根据每个切片泰文字符串的出现频数、凝固程度值、以及信息熵自由度值的顺序,对词汇输出切片集合进行刷选,形成词汇输出切片集合。当然,本发明实施例不限于此,还可依据凝固程度值、出现频数、以及信息熵自由度值的顺序,对词汇输出切片集合进行刷选,形成词汇输出切片集合。或者,可依据出现频数、信息熵自由度值、以及凝固程度值等顺序,对词汇输出切片集合进行刷选,形成词汇输出切片集合。具体就一一累述了。
步骤203:从词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的第二泰语词语。
这里,可随机从词汇输出切片集合中,选择设定个数的切片泰文字符串,并确定为识别出的泰语词语。或者,根据信息熵处理参数值包括出现频数、凝固程度值、或信息熵自由度值,从词汇输出切片集合中,选择设定个数的切片泰文字符串,并确定为识别出的第二泰语词语。
其中,根据出现频率的高低对词汇输出切片集合中的每个切片泰文字符串进行前后排序;将位于最前方的设定个数的切片泰文字符串确定为识别出的第二泰语词语。
可见,本实施例中,可通过信息熵处理参数值,对泰语文档中的切片泰文字符串进行刷选,最终从泰语文档中识别出泰语词语,这样,提高了泰语术语提取的效率,并且,还可增加泰语文档的浏览阅读速度。
下面将操作流程集合到具体实施例中,举例说明本公开实施例提供的方法。
本实施例中,信息熵处理参数值包括:出现频数、凝固程度值、以及信息熵自由度值。因此,可预先对设定频数、第一设定值以及第二设定值进行配置。还可预先设定泰文字符串的设定长度。
图3是根据一示例性实施例示出的一种泰语术语提取方法的流程图。如图3,泰语术语提取过程包括:
步骤301:从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取第一泰语词语后的待处理泰语文档确定为待识别泰语文档。
步骤302:对待识别泰语文档进行过滤处理,形成只包括泰文字符的第一泰语文档。
将泰文中全半角字符包含英文、数学等其它非泰文字符进行过滤处理,只保留泰文的范围[0x0E00,0x0E7F]的字符,这样就形成一个完成的纯净泰语文档,即形成只包括泰文字符的第一泰语文档。
步骤303:根据设定步长,对第一泰语文档中的至少一个泰语短句进行分割,形成包括至少一个切片字符串的切片集合。
例如:第一泰语文档中的一个泰语短句长度N=8按step=2进行分割,形成的切片集合
步骤304:根据公式(1),确定切片集合中每个切片泰文字符串的出现频数,并根据出现频数超过设定频数的切片泰文字符串,形成第一待输出切片集合。
步骤305:根据公式(2),确定第一待输出切片集合中每个切片泰文字符串的凝固程度值,并根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合。
步骤306:根据公式(3)以及公式(4),确定第二待输出切片集合中每个切片泰文字符串的信息熵自由度值,并根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合。
例如:泰语短句 这个切片泰文字符串出现了四次,其中左邻字分别为右邻字分别为根据公式(3),这个切片泰文字符串的左邻字的信息熵为-(1/2)·log(1/2)-(1/2)·log(1/2)≈0.51,它的右邻字的信息熵则为-(1/2)·log(1/2)-(1/4)·log(1/4)-(1/4)·log(1/4)≈1.73。从而,对应的信息熵自由度值为0.51。
步骤307:根据出现频率的高低对词汇输出切片集合中的每个切片泰文字符串进行前后排序,并将位于最前方的设定个数的切片泰文字符串确定为识别出的第二泰语词语。
例如:词汇输出切片集合包括了50个切片泰文字符串,对应的出现频率的高低顺序为25、23、19、15、10、7、5、4、4、4、3、3、2、2…。则可将对应的切片泰文字符串进行前后排序。
若设定个数为5,则可分别将出现频率为25、23、19、15、10对应的切片泰文字符串确定为识别出的第二泰语词语。
步骤308:将第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计待处理泰语文档中每个待提取泰语词语的出现频数。
步骤309:将泰文字符串长度小于设定长度的待提取泰语词语确定为第一待提取泰语词语。
步骤310:根据出现频率的高低对每个第一待提取泰语词语进行前后排序,并将位于最前方的设定个数的第一待提取泰语词语确定为泰语术语。
可见,本实施例中,可通过出现频数、凝固程度值、以及信息熵自由度值,对泰语文档中的切片泰文字符串进行刷选,最终比较准确的地从泰语文档中识别出第二泰语词语,这样,提高了泰语术语提取的效率以及准确率,并且,还可增加泰语文档的浏览阅读速度。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
根据上述泰语术语提取的过程,可构建一种泰语术语提取的装置。
图4是根据一示例性实施例示出的一种泰语术语提取装置的框图。如图4所示,该装置包括:提取分词单元410、信息熵识别单元420、统计处理单元430以及确定提取单元440,其中,
提取分词单元410,用于从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取第一泰语词语后的待处理泰语文档确定为待识别泰语文档。
信息熵识别单元420,用于对待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语。
统计处理单元430,用于将第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计待处理泰语文档中每个待提取泰语词语的出现频数。
确定提取单元440,用于将出现频数满足设定条件的待提取泰语词语确定为泰语术语,并进行提取。
本发明一实施例中,信息熵识别单元420包括:
过滤分割模块,用于根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合。
信息熵刷选模块,用于根据每个切片泰文字符串的信息熵处理参数值,对切片集合进行刷选,形成词汇输出切片集合。
词语确定模块,用于从词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的第二泰语词语。
本发明一实施例中,信息熵刷选模块,具体用于根据出现频数超过设定频数的切片泰文字符串,形成第一待输出切片集合;根据公式(2),确定第一待输出切片集合中当前切片泰文字符串的凝固程度值,并根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合;根据公式(3),确定当前切片泰文字符串的左邻字信息熵和右邻字信息熵,根据公式(4),将左邻字信息熵和右邻字信息熵中的较小值,确定为当前切片泰文字符串的信息熵自由度值,并根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合;
其中,Pi为当前切片泰文字符串的出现频数,Pij为当前切片泰文字符串中对应的子切片泰文字符串的出现频数,co为凝固程度值;
其中,Pi为每个切片泰文字符串的出现频数,H(U)为信息熵;
free=min{H(U)1,H(U)2,...H(U)n}---------------公式(4)
其中,H(U)为信息熵,free为信息熵自由度值。
本发明一实施例中,词语确定模块,具体用于根据出现频率的高低对词汇输出切片集合中的每个切片泰文字符串进行前后排序;将位于最前方的设定个数的切片泰文字符串确定为识别出的第二泰语词语。
本发明一实施例中,确定提取单元440,具体用于将泰文字符串长度小于设定长度的待提取泰语词语确定为第一待提取泰语词语;根据出现频率的高低对每个第一待提取泰语词语进行前后排序;将位于最前方的设定个数的第一待提取泰语词语确定为泰语术语。
下面举例说明本公开实施例提供的装置。
图5是根据一示例性实施例示出的一种泰语术语提取装置的框图。如图5所示,该装置包括:提取分词单元410、信息熵识别单元420、统计处理单元430和确定提取单元440,其中,信息熵识别单元420包括:过滤分割模块421、信息熵刷选模块422、以及词语确定模块423。
其中,提取分词单元410可从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取第一泰语词语后的待处理泰语文档确定为待识别泰语文档。
然后,信息熵识别单元420中过滤分割模块421可对待识别泰语文档进行过滤处理,形成只包括泰文字符的第一泰语文档,然后根据设定步长,对第一泰语文档中的至少一个泰语短句进行分割,形成包括至少一个切片字符串的切片集合。
这样,信息熵识别单元420中信息熵刷选模块422可根据公式(1),确定切片集合中每个切片泰文字符串的出现频数,并根据出现频数超过设定频数的切片泰文字符串,形成第一待输出切片集合。然后,可根据公式(2),确定第一待输出切片集合中每个切片泰文字符串的凝固程度值,并根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合。最后,可根据公式(3)以及公式(4),确定第二待输出切片集合中每个切片泰文字符串的信息熵自由度值,并根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合。
从而,信息熵识别单元420中词语确定模块423可根据出现频率的高低对词汇输出切片集合中的每个切片泰文字符串进行前后排序,并将位于最前方的设定个数的切片泰文字符串确定为识别出的泰语词语。
这样,统计处理单元430可将第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计待处理泰语文档中每个待提取泰语词语的出现频数。而确定提取单元440可将泰文字符串长度小于设定长度的待提取泰语词语确定为第一待提取泰语词语,并根据出现频率的高低对每个第一待提取泰语词语进行前后排序,将位于最前方的设定个数的第一待提取泰语词语确定为泰语术语。
可见,本实施例中,可通过出现频数、凝固程度值、以及信息熵自由度值,对泰语文档中的切片泰文字符串进行刷选,最终比较准确的地从泰语文档中识别出第二泰语词语,这样,提高了泰语词语提取的效率以及准确率,从而,使得用户可快速把握泰语文档的主题思想,提高用户阅读速度,并节省阅读时间。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种泰语术语提取的方法,其特征在于,包括:
从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取所述第一泰语词语后的所述待处理泰语文档确定为待识别泰语文档;
对所述待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语;
将所述第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计所述待处理泰语文档中每个待提取泰语词语的出现频数;
将所述出现频数满足设定条件的所述待提取泰语词语确定为泰语术语,并进行提取。
2.如权利要求1所述的方法,其特征在于,所述对所述待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语包括:
根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合;
根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合;
从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的第二泰语词语。
3.如权利要求2所述的方法,其特征在于,当所述信息熵处理参数值包括出现频数、凝固程度值、以及信息熵自由度值时,所述根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合包括:
根据出现频数超过设定频数的切片泰文字符串,形成第一待输出切片集合;
根据公式(2),确定所述第一待输出切片集合中当前切片泰文字符串的凝固程度值,并根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合;
根据公式(3),确定当前切片泰文字符串的左邻字信息熵和右邻字信息熵,根据公式(4),将所述左邻字信息熵和右邻字信息熵中的较小值,确定为所述当前切片泰文字符串的信息熵自由度值,并根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合;
其中,Pi为当前切片泰文字符串的出现频数,Pij为当前切片泰文字符串中对应的子切片泰文字符串的出现频数,co为凝固程度值;
其中,Pi为每个切片泰文字符串的出现频数,H(U)为信息熵;
free=min{H(U)1,H(U)2,...H(U)n}---------------公式(4)
其中,H(U)为信息熵,free为信息熵自由度值。
4.如权利要求2所述的方法,其特征在于,所述从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的第二泰语词语包括:
根据出现频率的高低对所述词汇输出切片集合中的每个切片泰文字符串进行前后排序;
将位于最前方的设定个数的切片泰文字符串确定为识别出的第二泰语词语。
5.如权利要求1所述的方法,其特征在于,所述将所述出现频数满足设定条件的所述待提取泰语词语确定为泰语术语包括:
将泰文字符串长度小于设定长度的所述待提取泰语词语确定为第一待提取泰语词语;
根据出现频率的高低对每个第一待提取泰语词语进行前后排序;
将位于最前方的设定个数的所述第一待提取泰语词语确定为所述泰语术语。
6.一种泰语术语提取的装置,其特征在于,包括:
提取分词单元,用于从待处理泰语文档中提取与设定泰语词典中词语匹配的第一泰语词语进行存储,并将提取所述第一泰语词语后的所述待处理泰语文档确定为待识别泰语文档;
信息熵识别单元,用于对所述待识别泰语文档进行信息熵处理,识别出满足信息熵处理参数刷选条件的第二泰语词语;
统计处理单元,用于将所述第一泰语词语和第二泰语词语确定为待提取泰语词语,并统计所述待处理泰语文档中每个待提取泰语词语的出现频数;
确定提取单元,用于将所述出现频数满足设定条件的所述待提取泰语词语确定为泰语术语,并进行提取。
7.如权利要求6所述的装置,其特征在于,所述信息熵识别单元包括:
过滤分割模块,用于根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合;
信息熵刷选模块,用于根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合;
词语确定模块,用于从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的第二泰语词语。
8.如权利要求7所述的装置,其特征在于,
所述信息熵刷选模块,具体用于根据出现频数超过设定频数的切片泰文字符串,形成第一待输出切片集合;根据公式(2),确定所述第一待输出切片集合中当前切片泰文字符串的凝固程度值,并根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合;根据公式(3),确定当前切片泰文字符串的左邻字信息熵和右邻字信息熵,根据公式(4),将所述左邻字信息熵和右邻字信息熵中的较小值,确定为所述当前切片泰文字符串的信息熵自由度值,并根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合;
其中,Pi为当前切片泰文字符串的出现频数,Pij为当前切片泰文字符串中对应的子切片泰文字符串的出现频数,co为凝固程度值;
其中,Pi为每个切片泰文字符串的出现频数,H(U)为信息熵;
free=min{H(U)1,H(U)2,...H(U)n}---------------公式(4)
其中,H(U)为信息熵,free为信息熵自由度值。
9.如权利要求7所述的装置,其特征在于,
所述词语确定模块,具体用于根据出现频率的高低对所述词汇输出切片集合中的每个切片泰文字符串进行前后排序;将位于最前方的设定个数的切片泰文字符串确定为识别出的第二泰语词语。
10.如权利要求6所述的装置,其特征在于,
所述确定提取单元,具体用于将泰文字符串长度小于设定长度的所述待提取泰语词语确定为第一待提取泰语词语;根据出现频率的高低对每个第一待提取泰语词语进行前后排序;将位于最前方的设定个数的所述第一待提取泰语词语确定为所述泰语术语。
CN201710982767.2A 2017-10-20 2017-10-20 泰语术语提取的方法及装置 Active CN107704452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710982767.2A CN107704452B (zh) 2017-10-20 2017-10-20 泰语术语提取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710982767.2A CN107704452B (zh) 2017-10-20 2017-10-20 泰语术语提取的方法及装置

Publications (2)

Publication Number Publication Date
CN107704452A true CN107704452A (zh) 2018-02-16
CN107704452B CN107704452B (zh) 2020-12-22

Family

ID=61182868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710982767.2A Active CN107704452B (zh) 2017-10-20 2017-10-20 泰语术语提取的方法及装置

Country Status (1)

Country Link
CN (1) CN107704452B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137642A1 (en) * 2007-08-23 2011-06-09 Google Inc. Word Detection
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137642A1 (en) * 2007-08-23 2011-06-09 Google Inc. Word Detection
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAN HE ET AL.: "A Bootstrap Method for Chinese New Words Extraction", 《2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS》 *
雷军程 等: "一种基于权重的文本特征选择方法", 《计算机科学》 *

Also Published As

Publication number Publication date
CN107704452B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN109710947B (zh) 电力专业词库生成方法及装置
CN101315622B (zh) 检测文件相似度的系统及方法
CN108845982B (zh) 一种基于词的关联特征的中文分词方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN105912514B (zh) 基于指纹特征的文本复制检测系统及方法
CN112818694A (zh) 一种基于规则和改进预训练模型的命名实体识别方法
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN109960804A (zh) 一种题目文本句子向量生成方法及装置
CN106557460A (zh) 从单文档中提取关键词的装置及方法
WO2019100458A1 (zh) 泰语音节切分的方法及装置
CN103942191A (zh) 一种基于内容的恐怖文本识别方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN105095196A (zh) 文本中新词发现的方法和装置
CN104850617A (zh) 短文本处理方法及装置
CN104978354A (zh) 文本分类方法和装置
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN107807918A (zh) 泰语词语识别的方法及装置
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN110674251A (zh) 一种基于语义信息的计算机辅助密点标注方法
Alhanjouri Pre processing techniques for Arabic documents clustering
CN106933818A (zh) 一种快速的多关键字文本匹配方法及装置
CN110489759B (zh) 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN107704452A (zh) 泰语术语提取的方法及装置
CN116453013A (zh) 视频数据的处理方法及设备
CN102541865B (zh) 利用分词过程中识别的新词改善分词性能的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant