CN113435218A - 一种基于正则表达式的语音翻译文本信息抽取方法 - Google Patents

一种基于正则表达式的语音翻译文本信息抽取方法 Download PDF

Info

Publication number
CN113435218A
CN113435218A CN202110830925.9A CN202110830925A CN113435218A CN 113435218 A CN113435218 A CN 113435218A CN 202110830925 A CN202110830925 A CN 202110830925A CN 113435218 A CN113435218 A CN 113435218A
Authority
CN
China
Prior art keywords
regular expression
matching
character
regular
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110830925.9A
Other languages
English (en)
Inventor
郭明
张云菊
杨强
张玉罗
史虎军
邢苗苗
杜秀举
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202110830925.9A priority Critical patent/CN113435218A/zh
Publication of CN113435218A publication Critical patent/CN113435218A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于正则表达式的语音翻译文本信息抽取方法,它包括步骤1、通过对语音翻译文本进行分析,编写正则表达式库,构建直接匹配正则表达式库和关键词触发的正则表达式库;步骤2、通过对正则表达式的匹配步骤进行拓展,通过相似文本拓展方法,抽取准确的信息;解决了语音翻译文本错别字多容易混淆导致抽取信息准确率和召回率等技术问题。

Description

一种基于正则表达式的语音翻译文本信息抽取方法
技术领域
本发明属于软件技术领域,尤其涉及一种基于正则表达式的语音翻译文本信息抽取方法。
背景技术
文本信息抽取是为了从大规模的文本数据中获得有价值的信息,从文本中抽取特定的信息片段的技术。文本信息抽取的研究对象主要分为自由文本(无结构化文本)、半结构化文本与结构化文本三种。其中,自由文本是指符合自然语言规则的文本,结构化文本是指按照某种格式严格生成的文本,半结构化文本则介于以上两者之间。大多数文本数据具有数据量大、格式多样等的特点。有价值的信息往往符合某种规则,正则表达式就是一种描述这种规则的方案。
当前的智能助手和智能系统大多数都是基于文本、语音、图片和视频一体化的多媒体输入和关联,常用的一种智能交互方法是通过语音翻译成文本然后理解文本再给出回复,回复可以是文本也可以是语音。对文本进行语义理解首先就要从语音翻译的文本进行信息抽取,获得有用的实体和关系信息。从交互的语音翻译文本中获取的信息要保证准确性和效率高,因此基于规则的方案是智能交互文本信息抽取是切实可行的方案。而语音翻译的交互文本,可能会因为语音翻译记得技术原因以及语音质量问题等造成会有很多同音但是不同义的错别字,并不符合上下文的关联,从而让基于规则的抽取方案失效。例如数字字符串“189”可被翻译成“宜拔酒”。对于以这种方式呈现的信息,可能需要手工编辑很多正则表达式,这会带来很大的工作量。因此,本发明通过对正则表达式的匹配步骤进行拓展,设计了一种相似文本拓展方法,以捕捉纠错此类信息。
文本信息抽取主要分为基于规则的方法和基于统计的方案。
基于统计的方法是指从不同角度对信息的特征进行统计,进而采用统计学方法进行数据抽取的方法。这种方法大多围绕隐马尔可夫模型HMM进行拓展与改进。学者们提出了一种被称为“收缩”的统计技术,改善了HMM在稀疏训练条件下的参数估计结果;然后提出了在文本分块基础上结合HMM进行数据抽取的方法;进一步地,将基于统计的方法应用到了交互文本数据上,并提出了基于本体的自适应方法,改善了数据抽取的准确率。这种基于统计的方法虽然自动化程度较高,普适性强,但是准确率较低,而在对交互文本数据进行抽取时因为准确率较低,导致遗漏有价值的信息的代价往往较大。
基于规则的方法是指通过查看大量文本,分析其中存在的规则模式,系统解析规则模式并进行模式匹配的方法,先后有学者提出了一种基于规则的知识元属性抽取方法、基于正则表达式构建学习的网页信息抽取方法等。基于规则的方法虽然自动化程度较低,普适性较差,但是准确率较高,这种方法适用于面向领域的语音交互翻译文本数据抽取等对准确率要求较高的应用场景。然而,目前基于确定性规则的方法,难以适应语音交互翻译文本数据信息结构多样化与信息模式动态扩增的特点。这一方面体现在语音翻译质量不佳导致人为撰写精确匹配规则的难度增加;另一方面随着新语音翻译文本年数据的在线动态生成,新的规则模式相应产生,这与确定性规则相矛盾,降低了信息抽取的准确率。
发明内容
本发明要解决的技术问题是:提供一种基于正则表达式的语音翻译文本信息抽取方法,以解决语音翻译文本错别字多容易混淆导致抽取信息准确率和召回率等技术问题。
本发明技术:
一种基于正则表达式的语音翻译文本信息抽取方法,它包括:
步骤1、通过对语音翻译文本进行分析,编写正则表达式库,构建直接匹配正则表达式库和关键词触发的正则表达式库;
步骤2、通过对正则表达式的匹配步骤进行拓展,通过相似文本拓展方法,抽取准确的信息。
所述直接匹配正则表达式库是使用直接匹配方法进行基于正则语言的数据抽取,给定一个正则表达式,直接将匹配结果作为结果集。
正则表达式的匹配是通过正则表达式引擎实现的;正则表达式引擎分为确定有穷状态自动机DFA引擎与非确定有穷状态自动机NFA引擎;DFA对于同一个输入和同一个状态,一定有一个唯一确定的下一状态;而NFA则没有一个唯一确定的下一状态;每一个正则表达式都对应着一个DFA或NFA。
所述构建关键词触发的正则表达式库的方法为:
步骤1.1、对字符串s,给定一个关键词的正则表达式RA,获得匹配结果集A;
步骤1.2、获得匹配结果集A的首字符位置集F;
步骤1.3、根据任务目标字符串长度设置搜索范围为x个字符,设首字符位置集F中的第i个元素为Fi,F中的元素数为n,将s截取为n个子串,则每个子串的字符范围为[Fi,Fi+x],设子串集为Schildren
步骤1.4、给定一个任务目标的正则表达式RB,使用RB在Schildren中的每个元素进行匹配,获得最终的结果集。
所述相似文本拓展方法的步骤包括:
步骤2.1、置入同音字库;
步骤2.2、设字母表为Σ,有穷的状态集合为S,初始状态为S0且S0∈S,状态转移函数为δ且δ=S×(Σ∪{ε})→2S,接受状态集合为F且
Figure BDA0003175526140000041
将正则表达式R利用正则表达式引擎转换为DFA或NFA,设其为A,则有:
A=(∑,S,S0,δ,F)
若第i个状态转移函数δi中存在同音字库的内容,设其共有n个同音字,则记录该转移条件的始态Sbegin与终态Send,并在Sbegin与Send间新加所有由δi的同音字构成的状态转移函数δi1…δin
使用直接匹配方法进行基于正则语言的数据抽取它包括:
以电子邮箱地址进行直接匹配:
电子邮箱地址以用户字段名开头,用@符号连接域名;域名由2-3个点分的数字字符串组成;
正则表达式如下所示:
[A-z\d~_\.!\#$%\^&\*\(\)\-]+@[a-z#_\-]+\.[A-z\d_\-\.]{2,3}
[A-z\d~_\.!\#$%\^&\*\(\)\-]+以匹配含有英文字母的字符或_.!#$%^&*\-十种符号,并且根据x+规则匹配重复一次以上;[a-z#_\-]以匹配含有英文字母的任一字符或#_-三种字符,并且根据x+规则匹配重复一次以上,再匹配.符号。
使用直接匹配方法进行基于正则语言的数据抽取它包括:
以手机号进行直接匹配:
手机号码为11位,其中前3位是网络识别号,第4-7位为地区识别号,第8-11位为用户号;手机号码存在国家代码;
正则表达式如下所示:
[^\d](86)?(0)?1[34578]\d[-]?(\d{3}[-]?\d{5}|\d{4}[-]?\d{4})[^\d]
首尾的[^\d]匹配非数字开头和结尾,以降低匹配错误的概率;(86)?(0)?匹配国家代码,根据x?规则匹配0-1次;1[34578]\d匹配以数字1开头,后紧跟匹配34578五个字符,再后紧跟匹配一个数字字符的字符串;[-]?匹配连接符-并且根据x?规则匹配0-1次;(\d{3}[-]?\d{5}|\d{4}[-]?\d{4})匹配3个数字字符后紧跟0-1个-字符再后紧跟5个数字字符,或匹配4个数字字符后紧跟0-1个-字符再后紧跟4个数字字符。
使用直接匹配方法进行基于正则语言的数据抽取它包括:以PGP签名进行直接匹配,PGP是一个基于RSA公匙加密体系的邮件加密软件,以PGP SIGNATURE开头,其前存在BEGIN字符串,再前存在任意长度的-字符;以PGP SIGNATURE结尾,其前存在END字符串,其后存在任意长度的-字符;在两PGP SIGNATURE之间是签名主体,是一个数字字母串,
则正则表达式如下所示:
(\-)*(BEGIN)?(\s)*(PGP SIGNATURE)
[\s\S]*(END)?(\s)*(PGP SIGNATURE)(\-)*
(\-)*匹配任意长度的-字符;(BEGIN)?匹配BEGIN字符串,此项使用x?规则匹配0-1次;(PGP SIGNATURE)匹配PGP SIGNATURE字符串;[\s\S]*匹配任意长度的字符串;(END)?匹配END字符串。本发明的有益效果:
本发明通过构建直接匹配正则表达式库和关键词触发的正则表达式库,通过相似文本拓展方法扩充已有正则的匹配过程覆盖率,解决正则表达式扩展性差的问题,提高抽取准确率和召回率,进而减少手工编写正则表达式的工作量;解决了语音翻译文本错别字多容易混淆导致抽取信息准确率和召回率等技术问题。
具体实施方式
一种基于正则表达式的语音翻译文本信息抽取方法:通过对语音翻译文本的人工分析,编写正则表达式库,构建直接匹配正则表达式库和关键词触发的正则表达式库;通过对正则表达式的匹配步骤进行拓展,通过相似文本拓展方法,抽取更多更准确的信息。
一、正则表达式库构建
在进行数据抽取时,经常需要查找符合某些特定规则的字符串。正则表达式就是一种描述这种规则的方案。它由单个字符串组成,不同的符号具有不同的含义,在文本编辑器中也广受支持,常用于进行符合某种模式的字符串的替换与检索。简单的说,正则表达式有以下两个作用:
(1)匹配:给定的字符串是否符合正则表达式所描述的规则。
(2)抽取:从给定的字符串中获得符合正则表达式所描述的规则的内容。
因此本发明中使用正则表达式的抽取功能进行进一步的数据抽取。针对抽取对象边界性的强弱,本发明设计了两种面向信息抽取的正则表达式库构建方法。
1.直接匹配方法
使用直接匹配方法进行基于正则语言的数据抽取,是指给定一个正则表达式,直接将匹配结果作为结果集的方法。
这种方案操作简单,适合匹配规则较严格、边界性较强的情况。下面给出三种适用直接法进行数据提取的情况:
(1)电子邮箱地址
电子邮箱地址一般以用户字段名开头,用@符号连接域名;域名由2-3个点分的数字字符串组成。
正则表达式如下所示:
[A-z\d~_\.!\#$%\^&\*\(\)\-]+@[a-z#_\-]+\.[A-z\d_\-\.]{2,3}
[A-z\d~_\.!\#$%\^&\*\(\)\-]+以匹配含有英文字母的字符或_.!#$%^&*\-十种符号,并且根据x+规则匹配重复一次以上;[a-z#_\-]以匹配含有英文字母的任一字符或#_-三种字符,并且根据x+规则匹配重复一次以上,再匹配.符号;最后重复类似本段描述第2个过程规则2次或3次。
(2)手机号码
国内常用手机号码为11位,其中前3位是网络识别号,第4-7位为地区识别号,第8-11位为用户号。手机号码前也可能存在国家代码。
正则表达式如下所示:
[^\d](86)?(0)?1[34578]\d[-]?(\d{3}[-]?\d{5}|\d{4}[-]?\d{4})[^\d]
首尾的[^\d]匹配非数字开头和结尾,以降低匹配错误的概率;(86)?(0)?匹配国家代码,根据x?规则匹配0-1次;1[34578]\d匹配以数字1开头,后紧跟匹配34578五个字符,再后紧跟匹配一个数字字符的字符串;[-]?匹配连接符-并且根据x?规则匹配0-1次;(\d{3}[-]?\d{5}|\d{4}[-]?\d{4})匹配3个数字字符后紧跟0-1个-字符再后紧跟5个数字字符,或匹配4个数字字符后紧跟0-1个-字符再后紧跟4个数字字符。
(3)PGP签名
PGP(Pretty Good Privacy)是一个基于RSA公匙加密体系的邮件加密软件。它以PGP SIGNATURE开头,其前可能存在BEGIN字符串,再前可能存在任意长度的-字符(一般为5个);以PGP SIGNATURE结尾,其前可能存在END字符串,其后可能存在任意长度的-字符(一般为5个);在两PGP SIGNATURE之间是签名主体,是一个数字字母串。
正则表达式如下所示:
(\-)*(BEGIN)?(\s)*(PGP SIGNATURE)
[\s\S]*(END)?(\s)*(PGP SIGNATURE)(\-)*
(\-)*匹配任意长度的-字符;(BEGIN)?匹配BEGIN字符串,此项使用x?规则匹配0-1次;(PGP SIGNATURE)匹配PGP SIGNATURE字符串;[\s\S]*匹配任意长度的字符串;(END)?匹配END字符串。
x?是正确的正则表达式的一种规则用来表示满足条件的情况只匹配一次,即最小匹配
\b匹配文字的开头和结尾,以减少匹配错误的概率;(bc|tb)匹配bc或tb字符串;[ac-hj-np-z02-9]{39}匹配除了字符b、字符i、字符1、字符0的由小写字母和数字组成的长度为39的字符串;[ac-hj-np-z02-9]{59}匹配除了字符b、字符i、字符1、字符0外的由小写字母和数字组成的长度为59的字符串,并且与上一项做析取;1[ac-hj-np-z02-9]{8,87}匹配以1开头的,除了字符b、字符i、字符1、字符0的由小写字母和数字组成的长度为9-88的字符串,并且与上一项析取式做析取;([13]|[mn2])匹配字符1或3和字符m或n或2,[a-km-zA-HJ-NP-Z1-9]{25,39}匹配除了字符l、字符I、字符O、字符0的由字母和数字组成的长度为25-39的字符串,其与上一项拼接后的结果与上文中提到的最后一个析取式做析取。
2.关键词触发的匹配方法
若匹配规则较宽松、边界性较弱,则会出现匹配结果较多且大量匹配结果与任务目标无关的情况。假设现有文本为:“我家住在武夷山路1010号,联系我qq:5432112345”,而抽取目标为获取文本中的qq号,则正则表达式如下:
[1-9]{1}[0-9]{4,10}
若采用直接匹配方法,则匹配结果为字符串“1010”与字符串“5432112345”,匹配结果“1010”为地址,是无关匹配。因此为了降低人工筛选的成本,有必要设计一种方法降低发生无关匹配的概率,因此本发明提出了一种具有关键词触发机制的匹配方法,其流程如下:
(1)对字符串s,给定一个关键词的正则表达式RA,获得匹配结果集A。
(2)获得匹配结果集A的首字符位置集F。
(3)根据任务目标字符串长度适当设置搜索范围为x个字符,设集合F中的第i个元素为Fi,F中的元素数为n,将s截取为n个子串,则每个子串的字符范围为[Fi,Fi+x],设子串集为Schildren
(4)给定一个任务目标的正则表达式RB,使用RB在Schildren中的每个元素进行匹配,获得最终的结果集。
下面以抽取文本“我家住在武夷山路1010号,联系我qq:5432112345”中的qq号为目标,举例说明该方法的流程:
(1)设计关键词的正则表达式RA以提取“qq”字样,正则表达式RA如下:
qq
(2)使用正则表达式RA进行匹配,获得1个匹配结果“qq”,且可知其首字符位置为15,可得F={15}。
(3)由于qq号的最大字符数为11,因此适当设置搜索范围x=14,获得一个子串“qq:5432112345”,可得Schildren={"qq:5432112345"}。
(4)在上述子串中使用任务目标的正则表达式RB进行匹配,抽取qq号,正则表达式RB如下:
[1-9]{1}[0-9]{4,10}
(5)获得1个匹配结果“5432112345”。
使用直接匹配方法会产生两个匹配结果,且有一个为无关匹配,而使用具有关键词触发机制的匹配方法会产生一个匹配结果,且是有效匹配。该方法可降低了发生无关匹配的概率。
下面给出两种适用关键词法进行数据抽取的情况:
(1)QQ号码
QQ是一款老牌的即时聊天软件,其账号号码为5-11位的数字串,且不能以0开头。
其正则表达式RA如下所示:
(qq)|(球球)
其正则表达式RB如下所示:
[1-9]{1}[0-9]{4,10}
(qq)匹配字符串qq,(球球)匹配字符串球球。[1-9]{1}匹配长度为1的非0数字字符;[0-9]{4,10}数字字符4-10次。
(2)微信id
微信是一款即时聊天软件,其账号id为以字母开头的、以数字、字母、-字符或_字符组成的长度为6-20的字符串。
其正则表达式RA如下所示:
(微信)|(weixin)|(wechat)
其正则表达式RB如下所示:
[a-zA-Z][a-zA-Z\d_-]{5,19}
(微信)匹配字符串微信;(weixin)匹配字符串weixin;(wechat)匹配字符串wechat。[a-zA-Z]匹配一位字母字符;[a-zA-Z\d_-]{5,19}匹配数字字符、字母字符、-字符或_字符5-19次。
二、相似文本拓展
本部分通过对正则表达式的匹配步骤进行拓展,设计了一种相似文本拓展方法,以捕捉此类型的信息。
正则表达式的匹配是通过正则表达式引擎实现的。正则表达式引擎分为确定有穷状态自动机DFA(Deterministic Finite State Automata)引擎与非确定有穷状态自动机NFA(Non-Deterministic Finite State Automata)引擎。其主要区别在于,DFA对于同一个输入和同一个状态,一定有一个唯一确定的下一状态;而NFA则没有一个唯一确定的下一状态。每一个正则表达式都对应着一个DFA或NFA。
本发明设计的相似文本拓展方法流程如下:
(1)置入同音字库。
(2)设字母表为Σ,有穷的状态集合为S,初始状态为S0且S0∈S,状态转移函数为δ且δ=S×(Σ∪{ε})→2S,接受状态集合为F且
Figure BDA0003175526140000101
将正则表达式R利用正则表达式引擎转换为DFA或NFA,设其为A,则有:
A=(∑,S,S0,δ,F)
(3)若第i个状态转移函数δi中存在同音字库的内容,设其共有n个同音字,则记录该转移条件的始态Sbegin与终态Send,并在Sbegin与Send间新加所有由δi的同音字构成的状态转移函数δi1…δin
如现有正则表达式:
a9b
其中字符9可被拓展为其同音字,若已将其转换为NFA,且有S0={0}与F={f}。
可以发现,该方法有效地拓展了使用基于正则表达式的数据抽取方法得到的数据集的数据数量与质量,并且对时间效率影响较小。该方法也可拓展到形近字库、表情字库等。
本发明方法验证:
1.实验数据
由于QQ是国内最常用的即时通信软件之一,QQ号码是其账号唯一识别码,其出现形式适用具有关键词触发机制的正则表达式匹配方法,其格式适用相似文本拓展方法。因此本发明实验聚焦于从文本翻译数据中提取QQ号码,实验的数据集大小为119,540条。
2.参数设置
本发明根据QQ号码的最大长度11设置搜索范围x=14,设置正则表达式RA
(qq)|(球球)
设置正则表达式RB
[1-9]{1}[0-9]{4,10}
3.评价指标
本发明研究的问题是网页数据抽取问题,其常见评价指标为所有抽取出的数据记录数(N)与精确率(Precision),精确率的计算公式如下:
Figure BDA0003175526140000111
其中,Nc为正确抽取出的数据记录数,N为所有抽取出的数据记录数。
4.实验设计
本发明设计了消融实验以观察使用具有关键词触发机制的正则表达式匹配方法与相似文本拓展方法的效果,具体实验设置如下:
Regex:
直接使用单个正则表达式匹配,不使用相似文本拓展方法。
Regex+keyword:
使用具有关键词触发机制的正则表达式匹配方法匹配,不使用相似文本拓展方法。
Regex+expression:
直接使用单个正则表达式匹配,使用相似文本拓展方法。
Regex+keyword+expression:
使用具有关键词触发机制的正则表达式匹配方法匹配,使用相似文本拓展方法。
5.实验结果与分析
实验结果如表1所示。
表1数据抽取方法实验结果
Figure BDA0003175526140000121
表1的实验结果说明,本发明提出具有关键词触发机制的正则表达式匹配方法与相似文本拓展方法能有效提高数据抽取的效果。

Claims (8)

1.一种基于正则表达式的语音翻译文本信息抽取方法,它包括:
步骤1、通过对语音翻译文本进行分析,编写正则表达式库,构建直接匹配正则表达式库和关键词触发的正则表达式库;
步骤2、通过对正则表达式的匹配步骤进行拓展,通过相似文本拓展方法,抽取准确的信息。
2.根据权利要求1所述的一种基于正则表达式的语音翻译文本信息抽取方法,其特征在于:所述直接匹配正则表达式库是使用直接匹配方法进行基于正则语言的数据抽取,给定一个正则表达式,直接将匹配结果作为结果集。
3.根据权利要求1所述的一种基于正则表达式的语音翻译文本信息抽取方法,其特征在于:正则表达式的匹配是通过正则表达式引擎实现的;正则表达式引擎分为确定有穷状态自动机DFA引擎与非确定有穷状态自动机NFA引擎;DFA对于同一个输入和同一个状态,一定有一个唯一确定的下一状态;而NFA则没有一个唯一确定的下一状态;每一个正则表达式都对应着一个DFA或NFA。
4.根据权利要求1所述的一种基于正则表达式的语音翻译文本信息抽取方法,其特征在于:所述构建关键词触发的正则表达式库的方法为:
步骤1.1、对字符串s,给定一个关键词的正则表达式RA,获得匹配结果集A;
步骤1.2、获得匹配结果集A的首字符位置集F;
步骤1.3、根据任务目标字符串长度设置搜索范围为x个字符,设首字符位置集F中的第i个元素为Fi,F中的元素数为n,将s截取为n个子串,则每个子串的字符范围为[Fi,Fi+x],设子串集为Schildre
步骤1.4、给定一个任务目标的正则表达式RB,使用RB在Schildren中的每个元素进行匹配,获得最终的结果集。
5.根据权利要求1所述的一种基于正则表达式的语音翻译文本信息抽取方法,其特征在于:所述相似文本拓展方法的步骤包括:
步骤2.1、置入同音字库;
步骤2.2、设字母表为Σ,有穷的状态集合为S,初始状态为S0且S0∈S,状态转移函数为δ且δ=S×(Σ∪{ε})→2S,接受状态集合为F且
Figure FDA0003175526130000021
将正则表达式R利用正则表达式引擎转换为DFA或NFA,设其为A,则有:
A=(∑,S,S0,δ,F)
若第i个状态转移函数δi中存在同音字库的内容,设其共有n个同音字,则记录该转移条件的始态Sbegin与终态Send,并在Sbegin与Send间新加所有由δi的同音字构成的状态转移函数δi1…δin
6.根据权利要求2所述的一种基于正则表达式的语音翻译文本信息抽取方法,其特征在于:使用直接匹配方法进行基于正则语言的数据抽取它包括:
以电子邮箱地址进行直接匹配:
电子邮箱地址以用户字段名开头,用@符号连接域名;域名由2-3个点分的数字字符串组成;
正则表达式如下所示:
[A-z\d~_\.!\#$%\^&\*\(\)\-]+@[a-z#_\-]+\.[A-z\d_\-\.]{2,3}
[A-z\d~_\.!\#$%\^&\*\(\)\-]+以匹配含有英文字母的字符或_.!#$%^&*\-十种符号,并且根据x+规则匹配重复一次以上;[a-z#_\-]以匹配含有英文字母的任一字符或#_-三种字符,并且根据x+规则匹配重复一次以上,再匹配.符号。
7.根据权利要求2所述的一种基于正则表达式的语音翻译文本信息抽取方法,其特征在于:使用直接匹配方法进行基于正则语言的数据抽取它包括:
以手机号进行直接匹配:
手机号码为11位,其中前3位是网络识别号,第4-7位为地区识别号,第8-11位为用户号;手机号码存在国家代码;
正则表达式如下所示:
[^\d](86)?(0)?1[34578]\d[-]?(\d{3}[-]?\d{5}|\d{4}[-]?\d{4})[^\d]
首尾的[^\d]匹配非数字开头和结尾,以降低匹配错误的概率;(86)?(0)?匹配国家代码,根据x?规则匹配0-1次;1[34578]\d匹配以数字1开头,后紧跟匹配34578五个字符,再后紧跟匹配一个数字字符的字符串;[-]?匹配连接符-并且根据x?规则匹配0-1次;(\d{3}[-]?\d{5}|\d{4}[-]?\d{4})匹配3个数字字符后紧跟0-1个-字符再后紧跟5个数字字符,或匹配4个数字字符后紧跟0-1个-字符再后紧跟4个数字字符。
8.根据权利要求2所述的一种基于正则表达式的语音翻译文本信息抽取方法,其特征在于:使用直接匹配方法进行基于正则语言的数据抽取它包括:以PGP签名进行直接匹配,PGP是一个基于RSA公匙加密体系的邮件加密软件,以PGPSIGNATURE开头,其前存在BEGIN字符串,再前存在任意长度的-字符;以PGPSIGNATURE结尾,其前存在END字符串,其后存在任意长度的-字符;在两PGPSIGNATURE之间是签名主体,是一个数字字母串,
则正则表达式如下所示:
(\-)*(BEGIN)?(\s)*(PGPSIGNATURE)
[\s\S]*(END)?(\s)*(PGPSIGNATURE)(\-)*
(\-)*匹配任意长度的-字符;(BEGIN)?匹配BEGIN字符串,此项使用x?规则匹配0-1次;(PGPSIGNATURE)匹配PGPSIGNATURE字符串;[\s\S]*匹配任意长度的字符串;(END)?匹配END字符串。
CN202110830925.9A 2021-07-22 2021-07-22 一种基于正则表达式的语音翻译文本信息抽取方法 Pending CN113435218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110830925.9A CN113435218A (zh) 2021-07-22 2021-07-22 一种基于正则表达式的语音翻译文本信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110830925.9A CN113435218A (zh) 2021-07-22 2021-07-22 一种基于正则表达式的语音翻译文本信息抽取方法

Publications (1)

Publication Number Publication Date
CN113435218A true CN113435218A (zh) 2021-09-24

Family

ID=77761389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110830925.9A Pending CN113435218A (zh) 2021-07-22 2021-07-22 一种基于正则表达式的语音翻译文本信息抽取方法

Country Status (1)

Country Link
CN (1) CN113435218A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492399A (zh) * 2021-12-29 2022-05-13 国网天津市电力公司 一种基于正则表达式的合同信息提取系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492399A (zh) * 2021-12-29 2022-05-13 国网天津市电力公司 一种基于正则表达式的合同信息提取系统及方法

Similar Documents

Publication Publication Date Title
CN107608949B (zh) 一种基于语义模型的文本信息抽取方法及装置
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
JP3696745B2 (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
CN100504851C (zh) 一种中文分词方法及系统
CN101950285A (zh) 利用统计学方法对汉字的本国语读音串转换系统及其方法
Bellare et al. Learning extractors from unlabeled text using relevant databases
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN109858025B (zh) 一种地址标准化语料的分词方法及系统
Kumar et al. A study of spell checking techniques for indian languages
Clark et al. Pre-processing very noisy text
AU2018102145A4 (en) Method of establishing English geographical name index and querying method and apparatus thereof
CN116562297B (zh) 基于HTrie树的中文敏感词变形体识别方法及系统
CN113435218A (zh) 一种基于正则表达式的语音翻译文本信息抽取方法
Huang et al. Words without boundaries: Computational approaches to Chinese word segmentation
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
Saloot et al. Toward tweets normalization using maximum entropy
CN110413972A (zh) 一种基于nlp技术的表名字段名智能补全方法
Saloot et al. Noisy text normalization using an enhanced language model
Fenogenova et al. A general method applicable to the search for anglicisms in russian social network texts
CN108595584B (zh) 一种基于数字标记的汉字输出方法和系统
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
CN112784227A (zh) 基于口令语义结构的字典生成系统及方法
CN104641367B (zh) 用于格式化电子字符序列的格式化模块、系统和方法
Gongshen et al. A text information hiding algorithm based on alternatives
Wang et al. A conditional random fields approach to biomedical named entity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210924

RJ01 Rejection of invention patent application after publication