CN109271492A - 一种语料正则表达式的自动生成方法及系统 - Google Patents

一种语料正则表达式的自动生成方法及系统 Download PDF

Info

Publication number
CN109271492A
CN109271492A CN201811368810.7A CN201811368810A CN109271492A CN 109271492 A CN109271492 A CN 109271492A CN 201811368810 A CN201811368810 A CN 201811368810A CN 109271492 A CN109271492 A CN 109271492A
Authority
CN
China
Prior art keywords
sample
participle
corpus
regular expression
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811368810.7A
Other languages
English (en)
Inventor
方思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201811368810.7A priority Critical patent/CN109271492A/zh
Publication of CN109271492A publication Critical patent/CN109271492A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语料正则表达式的自动生成方法及系统,其方法包括:获取语料样本;根据分词技术对所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性;根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词;根据所述样本关键分词和所述样本分词词性撰写所述语料样本对应的正则表达式。本发明无须人工查看和撰写大批量的语料,即可自动完成语料正则表达式的撰写,节省人力,提高效率。

Description

一种语料正则表达式的自动生成方法及系统
技术领域
本发明涉及语言处理领域技术领域,尤指一种语料正则表达式的自动生成方法及系统。
背景技术
随着当代信息时代的高速发展,每天有大量的信息数据产生和需要处理。传统的人工撰写正则表达式的方式,需要按照“查看语料→判断语料中关键词→编写词库→撰写正则式”的步骤,流程繁多,且人力查看语料的效率较低。
另外在基于规则的语义识别方面,需要人工撰写大量的语料和添加词库,耗费人力且低效,完全依靠人工撰写正则表达式无法及时、准确地处理每天新增的信息数据,并且人工撰写正则表达式对工作人员的要求较高。
因此,当前急需一种系统智能自动撰写语料对应的正则表达式的方法。
发明内容
本发明的目的是提供一种语料正则表达式的自动生成方法及系统,实现无须人工查看和撰写大批量的语料,即可自动完成语料正则表达式的撰写,节省人力,提高效率。
本发明提供的技术方案如下:
本发明提供了一种语料正则表达式的自动生成方法,包括:
获取语料样本;
根据分词技术对所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性;
根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词;
根据所述样本关键分词和所述样本分词词性撰写所述语料样本对应的正则表达式。
进一步的,还包括:
根据所述样本关键分词建立关键分词词库,在所述关键分词词库中建立所述样本关键分词和所述正则表达式的对应关系。
进一步的,还包括:
获取待识别的用户语料;
将所述用户语料和所述关键分词词库进行匹配,得到匹配结果相符的匹配关键分词;
根据所述匹配关键分词选取一个或多个目标正则表达式;
根据所述正则表达式对所述用户语料进行语义解析。
进一步的,还包括:
获取待识别的用户语料;
将所述用户语料和所述关键分词词库进行匹配,得到匹配结果相符的匹配关键分词;
根据所述匹配关键分词选取一个或多个目标正则表达式;
根据所述正则表达式对所述用户语料进行语义解析。
进一步的,所述的根据所述样本关键分词和所述样本分词词性撰写所述语料样本对应的正则表达式具体包括:
逐一识别所述语料样本中的样本分词的性质;
若是所述样本关键分词,则所述正则表达式中相应的样本分词以对应的所述样本分词词性进行表示;
若非所述样本关键分词,则所述正则表达式中相应的样本分词保持以样本分词进行表示;
根据性质是所述样本关键分词的样本分词相应的样本分词词性、以及性质非所述样本关键分词的样本分词撰写正则表达式。
本发明还提供了一种语料正则表达式的自动生成系统,包括:
样本获取模块,获取语料样本;
分词模块,根据分词技术对所述样本获取模块获取的所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性;
提取模块,根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词;
处理模块,根据所述提取模块提取的所述样本关键分词和所述分词模块得到的所述样本分词词性撰写所述语料样本对应的正则表达式。
进一步的,还包括:
词库建立模块,根据所述提取模块提取的所述样本关键分词建立关键分词词库,在所述关键分词词库中建立所述样本关键分词和所述正则表达式的对应关系。
进一步的,还包括:
语料获取模块,获取待识别的用户语料;
匹配模块,将所述语料获取模块获取的所述用户语料和所述关键分词词库进行匹配,得到匹配结果相符的匹配关键分词;
选取模块,根据所述匹配模块选取的所述匹配关键分词选取一个或多个目标正则表达式;
解析模块,根据所述选取模块选取的所述正则表达式对所述用户语料进行语义解析。
进一步的,所述提取模块具体包括:
分析单元,根据中文语法分析所述分词模块得到的所述样本分词之间的连接关系;
提取单元,根据所述分析单元得到的所述连接关系从所述样本分词中提取所述样本关键分词。
进一步的,所述处理模块具体包括:
识别单元,逐一识别所述分词模块得到的所述语料样本中的样本分词的性质;
处理单元,若所述识别单元识别是所述样本关键分词,则所述正则表达式中相应的样本分词以对应的所述样本分词词性进行表示;
所述处理单元,若所述识别单元识别非所述样本关键分词,则所述正则表达式中相应的样本分词保持以样本分词进行表示;
控制单元,根据所述处理单元确定的性质是所述样本关键分词的样本分词相应的样本分词词性、以及性质非所述样本关键分词的样本分词撰写正则表达式。
通过本发明提供的一种语料正则表达式的自动生成方法及系统,能够带来以下至少一种有益效果:
1、本发明中,通过分词技术和中文语法规则对语料样本进行分析,从而自动撰写对应的正则表达式,提高效率。
2、本发明中,无须人工查看和撰写大批量的语料,即可自动完成语料正则表达式的撰写,节省人力。
3、本发明中,通过从样本分词中提取样本关键分词建立关键分词词库,便于和待识别的用户语料进行匹配,从而选取相应的正则表达式对用户语料进行语义解析。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种语料正则表达式的自动生成方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种语料正则表达式的自动生成方法的第一个实施例的流程图;
图2是本发明一种语料正则表达式的自动生成方法的第二个实施例的流程图;
图3是本发明一种语料正则表达式的自动生成方法的第三个实施例的流程图;
图4是本发明一种语料正则表达式的自动生成系统的第四个实施例的结构示意图;
图5是本发明一种语料正则表达式的自动生成系统的第五个实施例的结构示意图;
图6是本发明一种语料正则表达式的自动生成系统的第六个实施例的结构示意图。
附图标号说明:
100语料正则表达式的自动生成系统
110样本获取模块
120分词模块
130提取模块 131分析单元 132提取单元
140处理模块 141识别模块 142处理单元 143控制单元
150词库建立模块
160语料获取模块
170匹配模块
180选取模块
190解析模块
具体实施方式
为了能够更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照说明书附图说明本发明的具体实施方式。显而易见地,下面描述中的说明书附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为了使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明的第一实施例,如图1所示,一种语料正则表达式的自动生成方法,包括:
S100获取语料样本。
具体的,获取需要撰写对应的正则表达式的语料样本,其中语料样本可以是规范的书面用语,例如文件、文档等,但也可以是用户的语音、录制的音频等,因为在人机交互的过程中用户语音输入和文字输入都是目前主流的交互方式。
但是,由于后续整个分析过程是针对书面文本,并且最终撰写出来的正则表达式也是文档形式,因此如果获取的是用户的语音、录制的音频等语音文件,则需要首先将获取到的语音文件转化为文本形式,然后对该文本进行相应的处理。
S200根据分词技术对所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性。
具体的,获取的所有的语料样本中的每一句话都可以看作是由多个字或者词语等分词构成的,因此通过分词技术对获取的所有的语料样本中的每一句话逐一地进行分析,对语料样本通过片段切分进行分词,从而将语料样本切分成多个字、词语的片段,切分之后得到的字、词语就是语料样本中包含的样本分词。
例如,某一语料样本用户问法为:描写秋天的作文有哪些。通过分词技术对该语料样本进行分析,通过片段切分进行分词,分词之后该用户语料的分段方式为:描写/秋天/的/作文/有/哪些。因此得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。由此可知通过语料样本得到的样本分词的种类为字或者词语。
然后分析通过上述过程得到的样本分词所对应的样本分词词性。其中,每一个字或者词语等分词都有自己对应的词性,虽然存在同一个分词具有多个词性的情形,但是结合包含分词的语料的语义以及和分词相关联的其它分词的词性能够确定分词的具体词性。
例如,上述举例中某一语料样本用户问法为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。确定上述样本分词对应的样本分词词性,其中,样本分词“描写”的词性为动词,样本分词“秋天”的词性为时间词,样本分词“的”的词性为助词,样本分词“有”的词性为动词,样本分词“哪些”的词性为代词,这些样本分词对应的样本分词词性可以唯一确定,但是样本分词“作文”的词性可以是名词,也可以是动词,但是分析语料样本“描写秋天的作文有哪些”的语义,以及结合与样本分词“作文”连接的样本分词“有”和“哪些”的词性,可以确定样本分词“作文”的词性为名词。
S300根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词。
具体的,根据中文语法规则分析语料样本中包含的样本分词相互之间存在的连接关系,根据连接关系确定通过分词技术得到的样本分词中哪些具有实质的意义,将其确定为关键分词并进行提取。
还可以选择根据系统设置或者用户自主设置的特征选取关键分词,例如选择某种词性的分词作为关键分词或者选择根据中文语法规则确定的某一特定位置的分词作为关键分词。
例如,某一语料样本为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。分词之间存在的连接关系为:定中关系:作文(名词)-描写(动词),动宾关系:描写(动词)-秋天(时间词)。将其中的样本分词“作文”和“秋天”选定为样本关键分词并进行提取。
S400根据所述样本关键分词和所述样本分词词性撰写所述语料样本对应的正则表达式。
具体的,根据样本关键分词和样本分词词性撰写语料样本对应的正则表达式。将获取到的语料样本转化为对应的正则表达式,语料样本包含的每一个样本分词在正则表达式中可以保持样本分词不变,也可以对应的样本分词词性进行替代。
例如,某一语料样本用户问法为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。其中,样本分词“描写”的词性为动词,样本分词“秋天”的词性为时间词,样本分词“的”的词性为助词,样本分词“作文”的词性为名词,样本分词“有”的词性为动词,样本分词“哪些”的词性为代词。选取的样本关键分词为样本分词“作文”和“秋天”。撰写的该语料样本对应的正则表达式为:描写#时间词#的#名词#有#哪些。
本实施例中,通过分词技术和中文语法规则对语料样本进行分析,从而自动撰写对应的正则表达式,无须人工查看和撰写大批量的语料,即可自动完成语料正则表达式的撰写,节省人力,提高效率。
本发明的第二实施例,是上述第一实施例的优化实施例,如图2所示,包括:
S100获取语料样本。
S200根据分词技术对所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性。
S300根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词。
S400根据所述样本关键分词和所述样本分词词性撰写所述语料样本对应的正则表达式。
S500根据所述样本关键分词建立关键分词词库,在所述关键分词词库中建立所述样本关键分词和所述正则表达式的对应关系。
具体的,根据通过上述方法分析获取到的所有的语料样本之后,每个语料样本得到相应的样本关键分词,根据得到的所有的建立对应的关键词库,由于获取的语料样本来源众多,数量较大,因此存在相同的样本关键分词,对相同的关键分词进行合并。
然后在关键分词词库中建立样本关键分词和正则表达式之间的对应关系,由于每一个正则表达式可能存在多个样本关键分词,因此可能多个样本关键分词关联同一个正则表达式。另外按照上述说法对相同的关键分词进行合并,就可能存在同一个样本关联不同的正则表达式。
S600获取待识别的用户语料。
具体的,获取待识别的用户语料,该用户语料可能是用户通过交互界面实时输入的信息,由于在在人机交互的过程中,用户语音输入和文字输入都是目前主流的交互方式。因此该用户语料可以是用户通过交互界面输入的文本信息,还可以是输入的语音信息。另外,该用户语料可能是用户下载的文件、文档或者语音音频等。
如果上述获取的用户语料是用语音、音频等语音文件,则首先需要将获取到的用户语料从语音文件形式转化为文本形式,然后对该文本进行后续的处理。
S700将所述用户语料和所述关键分词词库进行匹配,得到匹配结果相符的匹配关键分词。
具体的,将获取的用户语料和关键分词词库中收录的所有样本关键分词逐一进行匹配,如果用户语料中有匹配相符的片段,则将该片段对应的分词作为匹配关键分词。
如果关键分词词库中收录的所有样本关键分词数量过多,考虑到用户语料的匹配速度,可以选择将关键分词词库中收录的所有样本关键分词进行分类处理。对于获取的用户语料,则优先选择和相应类别的样本关键分词进行对比,其次选择扩大匹配范围。
S800根据所述匹配关键分词选取一个或多个目标正则表达式。
具体的,首先确定所有的匹配关键分词,然后根据关键分词词库中样本关键分词和正则表达式之间的对应关系确定所有的匹配关键分词对应的正则表达式。
由于存在多个样本关键分词关联同一个正则表达式的情形,因此确定的所有的匹配关键分词对应的正则表达式之间可能存在相同的正则表达式。逐一统计得到的正则表达式中每一类正则表达式所占的比例,相同的正则表达式看作是同一类正则表达式。
根据每一类正则表达式所占的比例,按照从大到小的顺序对正则表达式进行排列,选取其中任意一个或多个正则表达式作为后续分析的标准。例如可以选择排列靠前的正则表达式。
S900根据所述正则表达式对所述用户语料进行语义解析。
具体的,根据选取的正则表达式对获取的待识别的用户语料进行识别,如果该用户语料的分词和选取的正则表达式的分词完全对应,则按照正则表达式中的分词之间的连接关系对用户语料进行语义解析。如果不完全对应,则可以通过词之间的连接关系直接对用户语料进行语义解析或者是补全用户语料之后再进行语义解析。
本实施例中,通过从样本分词中提取样本关键分词建立关键分词词库,便于和待识别的用户语料进行匹配,从而选取相应的正则表达式对用户语料进行语义解析。
本发明的第三实施例,是上述第一实施例的优化实施例,如图3所示,包括:
S100获取语料样本。
S200根据分词技术对所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性。
S300根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词。
所述S300根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词具体包括:
S310根据中文语法分析所述样本分词之间的连接关系。
具体地,根据中文语法规则分析通过分析获取到的语料样本得到的所有的样本分词相互之间存在的连接关系。
例如某一语料样本为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。分词之间存在的连接关系为:定中关系:作文(名词)-描写(动词),动宾关系:描写(动词)-秋天(时间词)。
S320根据所述连接关系从所述样本分词中提取所述样本关键分词。
具体地,根据样本分词之间的连接关系从样本分词中提取样本关键分词,可以选择根据系统设置或者用户自主设置选择特定连接关系中的样本分词作为样本关键分词。
例如某一语料样本为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。分词之间存在的连接关系为:定中关系:作文(名词)-描写(动词),动宾关系:描写(动词)-秋天(时间词)。选定将定中关系中的名词“作文”和动宾关系中的“秋天”选定为样本关键分词并进行提取。
S400根据所述样本关键分词和所述样本分词词性撰写所述语料样本对应的正则表达式。
所述S400根据所述样本关键分词和所述样本分词词性撰写所述语料样本对应的正则表达式具体包括:
S410逐一识别所述语料样本中的样本分词的性质。
具体地,逐一地识别通过分析获取到的语料样本得到的所有的语料样本中的样本分词的性质,言下之意为逐一地判断每一个样本分词是否是样本关键分词。
S420若是所述样本关键分词,则所述正则表达式中相应的样本分词以对应的所述样本分词词性进行表示。
具体地,如果识别出语料样本中的某一个样本分词是样本关键分词,那么在该语料样本对应的正则表达式中该样本分词以相应的样本分词词性进行表示。
S430若非所述样本关键分词,则所述正则表达式中相应的样本分词保持以样本分词进行表示。
具体地,如果识别出语料样本中的某一个样本分词不是样本关键分词,那么在该语料样本对应的正则表达式中该样本分词仍然保持以以样本分词词性进行表示。
S440根据性质是所述样本关键分词的样本分词相应的样本分词词性、以及性质非所述样本关键分词的样本分词撰写正则表达式。
具体的,在逐一地识别完语料样本包含的所有样本分词,并确定了每一个样本分词在该语料样本对应的正则表达式中的表达方式之后,将识别是样本关键分词的样本分词以相应的样本分词词性表示,识别不是样本关键分词的样本分词仍然保持以样本分词词性表示,从而撰写出该语料样本对应的正则表达式。
本实施例中,通过逐一地识别语料样本包含的样本分词的性质,判断是否是样本关键分词从而选择样本分词在正则表达式中对应的表达方式,一方面总结出语料的具有的共性,另一方面也同时考虑到每个语料样本各自具有的特性。
本发明的第四实施例,如图4所示,一种语料正则表达式的自动生成系统100,包括:
样本获取模块110,获取语料样本。
具体的,样本获取模块110获取需要撰写对应的正则表达式的语料样本,其中语料样本可以是规范的书面用语,例如文件、文档等,但也可以是用户的语音、录制的音频等,因为在人机交互的过程中用户语音输入和文字输入都是目前主流的交互方式。
但是,由于后续整个分析过程是针对书面文本,并且最终撰写出来的正则表达式也是文档形式,因此如果获取的是用户的语音、录制的音频等语音文件,则需要首先将获取到的语音文件转化为文本形式,然后对该文本进行相应的处理。
分词模块120,根据分词技术对所述样本获取模块110获取的所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性。
具体的,获取的所有的语料样本中的每一句话都可以看作是由多个字或者词语等分词构成的,因此通过分词技术对获取的所有的语料样本中的每一句话逐一地进行分析,对语料样本通过片段切分进行分词,从而将语料样本切分成多个字、词语的片段,切分之后得到的字、词语就是语料样本中包含的样本分词。
例如,某一语料样本用户问法为:描写秋天的作文有哪些。通过分词技术对该语料样本进行分析,通过片段切分进行分词,分词之后该用户语料的分段方式为:描写/秋天/的/作文/有/哪些。因此得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。由此可知通过语料样本得到的样本分词的种类为字或者词语。
然后分析通过上述过程得到的样本分词所对应的样本分词词性。其中,每一个字或者词语等分词都有自己对应的词性,虽然存在同一个分词具有多个词性的情形,但是结合包含分词的语料的语义以及和分词相关联的其它分词的词性能够确定分词的具体词性。
例如,上述举例中某一语料样本用户问法为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。确定上述样本分词对应的样本分词词性,其中,样本分词“描写”的词性为动词,样本分词“秋天”的词性为时间词,样本分词“的”的词性为助词,样本分词“有”的词性为动词,样本分词“哪些”的词性为代词,这些样本分词对应的样本分词词性可以唯一确定,但是样本分词“作文”的词性可以是名词,也可以是动词,但是分析语料样本“描写秋天的作文有哪些”的语义,以及结合与样本分词“作文”连接的样本分词“有”和“哪些”的词性,可以确定样本分词“作文”的词性为名词。
提取模块130,根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词。
具体的,根据中文语法规则分析语料样本中包含的样本分词相互之间存在的连接关系,根据连接关系确定通过分词技术得到的样本分词中哪些具有实质的意义,将其确定为关键分词并进行提取。
还可以选择根据系统设置或者用户自主设置的特征选取关键分词,例如选择某种词性的分词作为关键分词或者选择根据中文语法规则确定的某一特定位置的分词作为关键分词。
例如,某一语料样本为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。分词之间存在的连接关系为:定中关系:作文(名词)-描写(动词),动宾关系:描写(动词)-秋天(时间词)。将其中的样本分词“作文”和“秋天”选定为关键分词并进行提取。
处理模块140,根据所述提取模块130提取的所述样本关键分词和所述分词模块120得到的所述样本分词词性撰写所述语料样本对应的正则表达。
具体的,根据样本关键分词和样本分词词性撰写语料样本对应的正则表达式。将获取到的语料样本转化为对应的正则表达式,语料样本包含的每一个样本分词在正则表达式中可以保持样本分词不变,也可以对应的样本分词词性进行替代。
例如,某一语料样本用户问法为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。其中,样本分词“描写”的词性为动词,样本分词“秋天”的词性为时间词,样本分词“的”的词性为助词,样本分词“作文”的词性为名词,样本分词“有”的词性为动词,样本分词“哪些”的词性为代词。选取的样本关键分词为样本分词“作文”和“秋天”。撰写的该语料样本对应的正则表达式为:描写#时间词#的#名词#有#哪些。
本实施例中,通过分词技术和中文语法规则对语料样本进行分析,从而自动撰写对应的正则表达式,无须人工查看和撰写大批量的语料,即可自动完成语料正则表达式的撰写,节省人力,提高效率。
本发明的第五实施例,是上述第四实施例的优化实施例,如图5所示,包括:
样本获取模块110,获取语料样本。
分词模块120,根据分词技术对所述样本获取模块110获取的所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性。
提取模块130,根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词。
处理模块140,根据所述提取模块130提取的所述样本关键分词和所述分词模块120得到的所述样本分词词性撰写所述语料样本对应的正则表达。
词库建立模块150,根据所述提取模块130提取的所述样本关键分词建立关键分词词库,在所述关键分词词库中建立所述样本关键分词和所述正则表达式的对应关系。
具体的,根据通过上述方法分析获取到的所有的语料样本之后,每个语料样本得到相应的样本关键分词,词库建立模块150根据得到的所有的建立对应的关键词库,由于获取的语料样本来源众多,数量较大,因此存在相同的样本关键分词,对相同的关键分词进行合并。
然后词库建立模块150在关键分词词库中建立样本关键分词和正则表达式之间的对应关系,由于每一个正则表达式可能存在多个样本关键分词,因此可能多个样本关键分词关联同一个正则表达式。另外按照上述说法对相同的关键分词进行合并,就可能存在同一个样本关联不同的正则表达式。
语料获取模块160,获取待识别的用户语料。
具体的,语料获取模块160获取待识别的用户语料,该用户语料可能是用户通过交互界面实时输入的信息,由于在在人机交互的过程中,用户语音输入和文字输入都是目前主流的交互方式。因此该用户语料可以是用户通过交互界面输入的文本信息,还可以是输入的语音信息。另外,该用户语料可能是用户下载的文件、文档或者语音音频等。
如果上述语料获取模块160获取的用户语料是用语音、音频等语音文件,则首先需要将获取到的用户语料从语音文件形式转化为文本形式,然后对该文本进行后续的处理。
匹配模块170,将所述语料获取模块160获取的所述用户语料和所述关键分词词库进行匹配,得到匹配结果相符的匹配关键分词。
具体的,匹配模块170将获取的用户语料和关键分词词库中收录的所有样本关键分词逐一进行匹配,如果用户语料中有匹配相符的片段,则将该片段对应的分词作为匹配关键分词。
如果关键分词词库中收录的所有样本关键分词数量过多,考虑到用户语料的匹配速度,可以选择将关键分词词库中收录的所有样本关键分词进行分类处理。对于获取的用户语料,则优先选择和相应类别的样本关键分词进行对比,其次选择扩大匹配范围。
选取模块180,根据所述匹配模块170选取的所述匹配关键分词选取一个或多个目标正则表达式。
具体的,首先确定所有的匹配关键分词,然后选取模块180根据关键分词词库中样本关键分词和正则表达式之间的对应关系确定所有的匹配关键分词对应的正则表达式。
由于存在多个样本关键分词关联同一个正则表达式的情形,因此确定的所有的匹配关键分词对应的正则表达式之间可能存在相同的正则表达式。逐一统计得到的正则表达式中每一类正则表达式所占的比例,相同的正则表达式看作是同一类正则表达式。
根据每一类正则表达式所占的比例,按照从大到小的顺序对正则表达式进行排列,选取模块180选取其中任意一个或多个正则表达式作为后续分析的标准。例如可以选择排列靠前的正则表达式。
解析模块190,根据所述选取模块180选取的所述正则表达式对所述用户语料进行语义解析。
具体的,解析模块190根据选取的正则表达式对获取的待识别的用户语料进行识别,如果该用户语料的分词和选取的正则表达式的分词完全对应,则按照正则表达式中的分词之间的连接关系对用户语料进行语义解析。如果不完全对应,则可以通过词之间的连接关系直接对用户语料进行语义解析或者是补全用户语料之后再进行语义解析。
本实施例中,通过从样本分词中提取样本关键分词建立关键分词词库,便于和待识别的用户语料进行匹配,从而选取相应的正则表达式对用户语料进行语义解析。
本发明的第六实施例,是上述第四实施例的优化实施例,如6图所示,包括:
样本获取模块110,获取语料样本。
分词模块120,根据分词技术对所述样本获取模块110获取的所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性。
提取模块130,根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词。
所述提取模块130具体包括:
分析单元131,根据中文语法分析所述分词模块120得到的所述样本分词之间的连接关系。
具体地,分析单元131根据中文语法规则分析通过分析获取到的语料样本得到的所有的样本分词相互之间存在的连接关系。
例如某一语料样本为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。分词之间存在的连接关系为:定中关系:作文(名词)-描写(动词),动宾关系:描写(动词)-秋天(时间词)。
提取单元132,根据所述分析单元131得到的所述连接关系从所述样本分词中提取所述样本关键分词。
具体地,提取单元132根据根据样本分词之间的连接关系从样本分词中提取样本关键分词,可以选择根据系统设置或者用户自主设置选择特定连接关系中的样本分词作为样本关键分词。
例如某一语料样本为:描写秋天的作文有哪些。通过分词技术得到的相应的样本分词为:描写、秋天、的、作文、有、哪些。分词之间存在的连接关系为:定中关系:作文(名词)-描写(动词),动宾关系:描写(动词)-秋天(时间词)。选定将定中关系中的名词“作文”和动宾关系中的“秋天”选定为样本关键分词并进行提取。
处理模块140,根据所述提取模块130提取的所述样本关键分词和所述分词模块120得到的所述样本分词词性撰写所述语料样本对应的正则表达。
所述处理模块140具体包括:
识别单元141,逐一识别所述分词模块120得到的所述语料样本中的样本分词的性质。
具体地,识别单元141逐一地识别通过分析获取到的语料样本得到的所有的语料样本中的样本分词的性质,言下之意为逐一地判断每一个样本分词是否是样本关键分词。
处理单元142,若所述识别单元141识别是所述样本关键分词,则所述正则表达式中相应的样本分词以对应的所述样本分词词性进行表示。
具体地,如果处理单元142识别出语料样本中的某一个样本分词是样本关键分词,那么在该语料样本对应的正则表达式中该样本分词以相应的样本分词词性进行表示。
所述处理单元142,若所述识别单元141识别非所述样本关键分词,则所述正则表达式中相应的样本分词保持以样本分词进行表示。
具体地,如果处理单元142识别出语料样本中的某一个样本分词不是样本关键分词,那么在该语料样本对应的正则表达式中该样本分词仍然保持以以样本分词词性进行表示。
控制单元143,根据所述处理单元142确定的性质是所述样本关键分词的样本分词相应的样本分词词性、以及性质非所述样本关键分词的样本分词撰写正则表达式。
具体的,在逐一地识别完语料样本包含的所有样本分词,并确定了每一个样本分词在该语料样本对应的正则表达式中的表达方式之后,将识别是样本关键分词的样本分词以相应的样本分词词性表示,识别不是样本关键分词的样本分词仍然保持以样本分词词性表示,从而控制单元143撰写出该语料样本对应的正则表达式。
本实施例中,通过逐一地识别语料样本包含的样本分词的性质,判断是否是样本关键分词从而选择样本分词在正则表达式中对应的表达方式,一方面总结出语料的具有的共性,另一方面也同时考虑到每个语料样本各自具有的特性。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种语料正则表达式的自动生成方法,其特征在于,包括:
获取语料样本;
根据分词技术对所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性;
根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词;
根据所述样本关键分词和所述样本分词词性撰写所述语料样本对应的正则表达式。
2.根据权利要求1所述的语料正则表达式的自动生成方法,其特征在于,还包括:
根据所述样本关键分词建立关键分词词库,在所述关键分词词库中建立所述样本关键分词和所述正则表达式的对应关系。
3.根据权利要求2所述的语料正则表达式的自动生成方法,其特征在于,还包括:
获取待识别的用户语料;
将所述用户语料和所述关键分词词库进行匹配,得到匹配结果相符的匹配关键分词;
根据所述匹配关键分词选取一个或多个目标正则表达式;
根据所述正则表达式对所述用户语料进行语义解析。
4.根据权利要求1所述的语料正则表达式的自动生成方法,其特征在于,所述的根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词具体包括:
根据中文语法分析所述样本分词之间的连接关系;
根据所述连接关系从所述样本分词中提取所述样本关键分词。
5.根据权利要求4所述的语料正则表达式的自动生成方法,其特征在于,所述的根据所述样本关键分词和所述样本分词词性撰写所述语料样本对应的正则表达式具体包括:
逐一识别所述语料样本中的样本分词的性质;
若是所述样本关键分词,则所述正则表达式中相应的样本分词以对应的所述样本分词词性进行表示;
若非所述样本关键分词,则所述正则表达式中相应的样本分词保持以样本分词进行表示;
根据性质是所述样本关键分词的样本分词相应的样本分词词性、以及性质非所述样本关键分词的样本分词撰写正则表达式。
6.一种语料正则表达式的自动生成系统,其特征在于,包括:
样本获取模块,获取语料样本;
分词模块,根据分词技术对所述样本获取模块获取的所述语料样本进行分词,得到所述语料样本中包含的样本分词以及对应的样本分词词性;
提取模块,根据中文语法规则分析所述样本分词,从所述样本分词中提取样本关键分词;
处理模块,根据所述提取模块提取的所述样本关键分词和所述分词模块得到的所述样本分词词性撰写所述语料样本对应的正则表达式。
7.根据权利要求6所述的语料正则表达式的自动生成系统,其特征在于,还包括:
词库建立模块,根据所述提取模块提取的所述样本关键分词建立关键分词词库,在所述关键分词词库中建立所述样本关键分词和所述正则表达式的对应关系。
8.根据权利要求7所述的语料正则表达式的自动生成系统,其特征在于,还包括:
语料获取模块,获取待识别的用户语料;
匹配模块,将所述语料获取模块获取的所述用户语料和所述关键分词词库进行匹配,得到匹配结果相符的匹配关键分词;
选取模块,根据所述匹配模块选取的所述匹配关键分词选取一个或多个目标正则表达式;
解析模块,根据所述选取模块选取的所述正则表达式对所述用户语料进行语义解析。
9.根据权利要求6所述的语料正则表达式的自动生成系统,其特征在于,所述提取模块具体包括:
分析单元,根据中文语法分析所述分词模块得到的所述样本分词之间的连接关系;
提取单元,根据所述分析单元得到的所述连接关系从所述样本分词中提取所述样本关键分词。
10.根据权利要求9所述的语料正则表达式的自动生成系统,其特征在于,所述处理模块具体包括:
识别单元,逐一识别所述分词模块得到的所述语料样本中的样本分词的性质;
处理单元,若所述识别单元识别是所述样本关键分词,则所述正则表达式中相应的样本分词以对应的所述样本分词词性进行表示;
所述处理单元,若所述识别单元识别非所述样本关键分词,则所述正则表达式中相应的样本分词保持以样本分词进行表示;
控制单元,根据所述处理单元确定的性质是所述样本关键分词的样本分词相应的样本分词词性、以及性质非所述样本关键分词的样本分词撰写正则表达式。
CN201811368810.7A 2018-11-16 2018-11-16 一种语料正则表达式的自动生成方法及系统 Pending CN109271492A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811368810.7A CN109271492A (zh) 2018-11-16 2018-11-16 一种语料正则表达式的自动生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811368810.7A CN109271492A (zh) 2018-11-16 2018-11-16 一种语料正则表达式的自动生成方法及系统

Publications (1)

Publication Number Publication Date
CN109271492A true CN109271492A (zh) 2019-01-25

Family

ID=65189964

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811368810.7A Pending CN109271492A (zh) 2018-11-16 2018-11-16 一种语料正则表达式的自动生成方法及系统

Country Status (1)

Country Link
CN (1) CN109271492A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909160A (zh) * 2019-10-11 2020-03-24 平安科技(深圳)有限公司 正则表达式生成方法、服务器及计算机可读存储介质
CN111292205A (zh) * 2019-12-17 2020-06-16 东方微银科技(北京)有限公司 一种司法数据解析方法、装置、设备及存储介质
CN111858949A (zh) * 2019-04-30 2020-10-30 广东小天才科技有限公司 基于知识图谱扩充正则表达式的方法和装置、学习设备
CN113343715A (zh) * 2021-06-29 2021-09-03 深圳前海微众银行股份有限公司 自动生成正则表达式的方法、装置、设备及存储介质
CN113656538A (zh) * 2021-07-09 2021-11-16 深圳价值在线信息科技股份有限公司 生成正则表达式的方法、装置、计算设备及存储介质
CN113807082A (zh) * 2020-06-15 2021-12-17 北京搜狗科技发展有限公司 一种目标用户确定方法、装置和用于确定目标用户的装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308446B1 (en) * 2003-01-10 2007-12-11 Cisco Technology, Inc. Methods and apparatus for regular expression matching
CN101470700A (zh) * 2007-12-28 2009-07-01 日电(中国)有限公司 文本模板生成器、文本生成设备、文本检验设备及其方法
CN101853301A (zh) * 2010-05-25 2010-10-06 华为技术有限公司 正则表达式匹配的方法和系统
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN105225657A (zh) * 2015-10-22 2016-01-06 百度在线网络技术(北京)有限公司 多音字标注模板生成方法和装置
CN106227720A (zh) * 2016-08-01 2016-12-14 昆明理工大学 一种app软件用户评论模式识别方法
CN108038234A (zh) * 2017-12-26 2018-05-15 众安信息技术服务有限公司 一种问句模板自动生成方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308446B1 (en) * 2003-01-10 2007-12-11 Cisco Technology, Inc. Methods and apparatus for regular expression matching
CN101470700A (zh) * 2007-12-28 2009-07-01 日电(中国)有限公司 文本模板生成器、文本生成设备、文本检验设备及其方法
CN101853301A (zh) * 2010-05-25 2010-10-06 华为技术有限公司 正则表达式匹配的方法和系统
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN105225657A (zh) * 2015-10-22 2016-01-06 百度在线网络技术(北京)有限公司 多音字标注模板生成方法和装置
CN106227720A (zh) * 2016-08-01 2016-12-14 昆明理工大学 一种app软件用户评论模式识别方法
CN108038234A (zh) * 2017-12-26 2018-05-15 众安信息技术服务有限公司 一种问句模板自动生成方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858949A (zh) * 2019-04-30 2020-10-30 广东小天才科技有限公司 基于知识图谱扩充正则表达式的方法和装置、学习设备
CN111858949B (zh) * 2019-04-30 2024-05-14 广东小天才科技有限公司 基于知识图谱扩充正则表达式的方法和装置、学习设备
CN110909160A (zh) * 2019-10-11 2020-03-24 平安科技(深圳)有限公司 正则表达式生成方法、服务器及计算机可读存储介质
CN111292205A (zh) * 2019-12-17 2020-06-16 东方微银科技(北京)有限公司 一种司法数据解析方法、装置、设备及存储介质
CN111292205B (zh) * 2019-12-17 2021-05-25 东方微银科技股份有限公司 一种司法数据解析方法、装置、设备及存储介质
CN113807082A (zh) * 2020-06-15 2021-12-17 北京搜狗科技发展有限公司 一种目标用户确定方法、装置和用于确定目标用户的装置
CN113343715A (zh) * 2021-06-29 2021-09-03 深圳前海微众银行股份有限公司 自动生成正则表达式的方法、装置、设备及存储介质
CN113656538A (zh) * 2021-07-09 2021-11-16 深圳价值在线信息科技股份有限公司 生成正则表达式的方法、装置、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN109271492A (zh) 一种语料正则表达式的自动生成方法及系统
Ghosh et al. Fracking sarcasm using neural network
EP1217533A2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN101937430A (zh) 一种汉语句子中事件句式的抽取方法
CN105912629A (zh) 一种智能问答方法及装置
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN101329667A (zh) 多语言语音互译的智能翻译设备及其控制方法
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN106446018A (zh) 基于人工智能的查询信息处理方法和装置
CN112527955A (zh) 一种数据处理的方法和装置
CN109766453A (zh) 一种用户语料语义理解的方法及系统
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
CN109800430B (zh) 一种语义理解方法及系统
CN112149403A (zh) 一种确定涉密文本的方法和装置
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
CN112380877B (zh) 一种用于篇章级英译中机器翻译测试集的构建方法
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
Braunger et al. A comparative analysis of crowdsourced natural language corpora for spoken dialog systems
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
Pasca et al. Answer mining from on-line documents
CN109783820B (zh) 一种语义解析方法及系统
JP4033011B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125

RJ01 Rejection of invention patent application after publication