CN113435218A

CN113435218A - 一种基于正则表达式的语音翻译文本信息抽取方法

Info

Publication number: CN113435218A
Application number: CN202110830925.9A
Authority: CN
Inventors: 郭明; 张云菊; 杨强; 张玉罗; 史虎军; 邢苗苗; 杜秀举
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-09-24

Abstract

本发明公开了一种基于正则表达式的语音翻译文本信息抽取方法，它包括步骤1、通过对语音翻译文本进行分析，编写正则表达式库，构建直接匹配正则表达式库和关键词触发的正则表达式库；步骤2、通过对正则表达式的匹配步骤进行拓展，通过相似文本拓展方法，抽取准确的信息；解决了语音翻译文本错别字多容易混淆导致抽取信息准确率和召回率等技术问题。

Description

一种基于正则表达式的语音翻译文本信息抽取方法

技术领域

本发明属于软件技术领域，尤其涉及一种基于正则表达式的语音翻译文本信息抽取方法。

背景技术

文本信息抽取是为了从大规模的文本数据中获得有价值的信息，从文本中抽取特定的信息片段的技术。文本信息抽取的研究对象主要分为自由文本(无结构化文本)、半结构化文本与结构化文本三种。其中，自由文本是指符合自然语言规则的文本，结构化文本是指按照某种格式严格生成的文本，半结构化文本则介于以上两者之间。大多数文本数据具有数据量大、格式多样等的特点。有价值的信息往往符合某种规则，正则表达式就是一种描述这种规则的方案。

当前的智能助手和智能系统大多数都是基于文本、语音、图片和视频一体化的多媒体输入和关联，常用的一种智能交互方法是通过语音翻译成文本然后理解文本再给出回复，回复可以是文本也可以是语音。对文本进行语义理解首先就要从语音翻译的文本进行信息抽取，获得有用的实体和关系信息。从交互的语音翻译文本中获取的信息要保证准确性和效率高，因此基于规则的方案是智能交互文本信息抽取是切实可行的方案。而语音翻译的交互文本，可能会因为语音翻译记得技术原因以及语音质量问题等造成会有很多同音但是不同义的错别字，并不符合上下文的关联，从而让基于规则的抽取方案失效。例如数字字符串“189”可被翻译成“宜拔酒”。对于以这种方式呈现的信息，可能需要手工编辑很多正则表达式，这会带来很大的工作量。因此，本发明通过对正则表达式的匹配步骤进行拓展，设计了一种相似文本拓展方法，以捕捉纠错此类信息。

文本信息抽取主要分为基于规则的方法和基于统计的方案。

基于统计的方法是指从不同角度对信息的特征进行统计，进而采用统计学方法进行数据抽取的方法。这种方法大多围绕隐马尔可夫模型HMM进行拓展与改进。学者们提出了一种被称为“收缩”的统计技术，改善了HMM在稀疏训练条件下的参数估计结果；然后提出了在文本分块基础上结合HMM进行数据抽取的方法；进一步地，将基于统计的方法应用到了交互文本数据上，并提出了基于本体的自适应方法，改善了数据抽取的准确率。这种基于统计的方法虽然自动化程度较高，普适性强，但是准确率较低，而在对交互文本数据进行抽取时因为准确率较低，导致遗漏有价值的信息的代价往往较大。

基于规则的方法是指通过查看大量文本，分析其中存在的规则模式，系统解析规则模式并进行模式匹配的方法，先后有学者提出了一种基于规则的知识元属性抽取方法、基于正则表达式构建学习的网页信息抽取方法等。基于规则的方法虽然自动化程度较低，普适性较差，但是准确率较高，这种方法适用于面向领域的语音交互翻译文本数据抽取等对准确率要求较高的应用场景。然而，目前基于确定性规则的方法，难以适应语音交互翻译文本数据信息结构多样化与信息模式动态扩增的特点。这一方面体现在语音翻译质量不佳导致人为撰写精确匹配规则的难度增加；另一方面随着新语音翻译文本年数据的在线动态生成，新的规则模式相应产生，这与确定性规则相矛盾，降低了信息抽取的准确率。

发明内容

本发明要解决的技术问题是：提供一种基于正则表达式的语音翻译文本信息抽取方法，以解决语音翻译文本错别字多容易混淆导致抽取信息准确率和召回率等技术问题。

本发明技术：

一种基于正则表达式的语音翻译文本信息抽取方法，它包括：

步骤1、通过对语音翻译文本进行分析，编写正则表达式库，构建直接匹配正则表达式库和关键词触发的正则表达式库；

步骤2、通过对正则表达式的匹配步骤进行拓展，通过相似文本拓展方法，抽取准确的信息。

所述直接匹配正则表达式库是使用直接匹配方法进行基于正则语言的数据抽取，给定一个正则表达式，直接将匹配结果作为结果集。

正则表达式的匹配是通过正则表达式引擎实现的；正则表达式引擎分为确定有穷状态自动机DFA引擎与非确定有穷状态自动机NFA引擎；DFA对于同一个输入和同一个状态，一定有一个唯一确定的下一状态；而NFA则没有一个唯一确定的下一状态；每一个正则表达式都对应着一个DFA或NFA。

所述构建关键词触发的正则表达式库的方法为：

步骤1.1、对字符串s，给定一个关键词的正则表达式R_A，获得匹配结果集A；

步骤1.2、获得匹配结果集A的首字符位置集F；

步骤1.3、根据任务目标字符串长度设置搜索范围为x个字符，设首字符位置集F中的第i个元素为F_i，F中的元素数为n，将s截取为n个子串，则每个子串的字符范围为[F_i,F_i+x]，设子串集为S_children；

步骤1.4、给定一个任务目标的正则表达式R_B，使用R_B在S_children中的每个元素进行匹配，获得最终的结果集。

所述相似文本拓展方法的步骤包括：

步骤2.1、置入同音字库；

步骤2.2、设字母表为Σ，有穷的状态集合为S，初始状态为S₀且S₀∈S，状态转移函数为δ且δ＝S×(Σ∪{ε})→2^S，接受状态集合为F且

将正则表达式R利用正则表达式引擎转换为DFA或NFA，设其为A，则有：

A＝(∑,S,S₀,δ,F)

若第i个状态转移函数δ_i中存在同音字库的内容，设其共有n个同音字，则记录该转移条件的始态S_begin与终态S_end，并在S_begin与S_end间新加所有由δ_i的同音字构成的状态转移函数δ_i1…δ_in。

使用直接匹配方法进行基于正则语言的数据抽取它包括：

以电子邮箱地址进行直接匹配：

电子邮箱地址以用户字段名开头，用@符号连接域名；域名由2-3个点分的数字字符串组成；

正则表达式如下所示：

[A-z\d～_\.！\#$％\^&\*\-]+@[a-z#_\-]+\.[A-z\d_\-\.]{2,3}

[A-z\d～_\.！\#$％\^&\*\-]+以匹配含有英文字母的字符或_.！#$％^&*\-十种符号，并且根据x+规则匹配重复一次以上；[a-z#_\-]以匹配含有英文字母的任一字符或#_-三种字符，并且根据x+规则匹配重复一次以上，再匹配.符号。

使用直接匹配方法进行基于正则语言的数据抽取它包括：

以手机号进行直接匹配：

手机号码为11位，其中前3位是网络识别号，第4-7位为地区识别号，第8-11位为用户号；手机号码存在国家代码；

正则表达式如下所示：

[^\d](86)？(0)？1[34578]\d[-]？(\d{3}[-]？\d{5}|\d{4}[-]？\d{4})[^\d]

首尾的[^\d]匹配非数字开头和结尾，以降低匹配错误的概率；(86)？(0)？匹配国家代码，根据x？规则匹配0-1次；1[34578]\d匹配以数字1开头，后紧跟匹配34578五个字符，再后紧跟匹配一个数字字符的字符串；[-]？匹配连接符-并且根据x？规则匹配0-1次；(\d{3}[-]？\d{5}|\d{4}[-]？\d{4})匹配3个数字字符后紧跟0-1个-字符再后紧跟5个数字字符，或匹配4个数字字符后紧跟0-1个-字符再后紧跟4个数字字符。

使用直接匹配方法进行基于正则语言的数据抽取它包括：以PGP签名进行直接匹配，PGP是一个基于RSA公匙加密体系的邮件加密软件，以PGP SIGNATURE开头，其前存在BEGIN字符串，再前存在任意长度的-字符；以PGP SIGNATURE结尾，其前存在END字符串，其后存在任意长度的-字符；在两PGP SIGNATURE之间是签名主体，是一个数字字母串，

则正则表达式如下所示：

(\-)*(BEGIN)？(\s)*(PGP SIGNATURE)

[\s\S]*(END)？(\s)*(PGP SIGNATURE)(\-)*

(\-)*匹配任意长度的-字符；(BEGIN)？匹配BEGIN字符串，此项使用x？规则匹配0-1次；(PGP SIGNATURE)匹配PGP SIGNATURE字符串；[\s\S]*匹配任意长度的字符串；(END)？匹配END字符串。本发明的有益效果：

本发明通过构建直接匹配正则表达式库和关键词触发的正则表达式库，通过相似文本拓展方法扩充已有正则的匹配过程覆盖率，解决正则表达式扩展性差的问题，提高抽取准确率和召回率，进而减少手工编写正则表达式的工作量；解决了语音翻译文本错别字多容易混淆导致抽取信息准确率和召回率等技术问题。

具体实施方式

一种基于正则表达式的语音翻译文本信息抽取方法：通过对语音翻译文本的人工分析，编写正则表达式库，构建直接匹配正则表达式库和关键词触发的正则表达式库；通过对正则表达式的匹配步骤进行拓展，通过相似文本拓展方法，抽取更多更准确的信息。

一、正则表达式库构建

在进行数据抽取时，经常需要查找符合某些特定规则的字符串。正则表达式就是一种描述这种规则的方案。它由单个字符串组成，不同的符号具有不同的含义，在文本编辑器中也广受支持，常用于进行符合某种模式的字符串的替换与检索。简单的说，正则表达式有以下两个作用：

(1)匹配：给定的字符串是否符合正则表达式所描述的规则。

(2)抽取：从给定的字符串中获得符合正则表达式所描述的规则的内容。

因此本发明中使用正则表达式的抽取功能进行进一步的数据抽取。针对抽取对象边界性的强弱，本发明设计了两种面向信息抽取的正则表达式库构建方法。

1.直接匹配方法

使用直接匹配方法进行基于正则语言的数据抽取，是指给定一个正则表达式，直接将匹配结果作为结果集的方法。

这种方案操作简单，适合匹配规则较严格、边界性较强的情况。下面给出三种适用直接法进行数据提取的情况：

(1)电子邮箱地址

电子邮箱地址一般以用户字段名开头，用@符号连接域名；域名由2-3个点分的数字字符串组成。

正则表达式如下所示：

[A-z\d～_\.！\#$％\^&\*\-]+@[a-z#_\-]+\.[A-z\d_\-\.]{2,3}

[A-z\d～_\.！\#$％\^&\*\-]+以匹配含有英文字母的字符或_.！#$％^&*\-十种符号，并且根据x+规则匹配重复一次以上；[a-z#_\-]以匹配含有英文字母的任一字符或#_-三种字符，并且根据x+规则匹配重复一次以上，再匹配.符号；最后重复类似本段描述第2个过程规则2次或3次。

(2)手机号码

国内常用手机号码为11位，其中前3位是网络识别号，第4-7位为地区识别号，第8-11位为用户号。手机号码前也可能存在国家代码。

正则表达式如下所示：

[^\d](86)？(0)？1[34578]\d[-]？(\d{3}[-]？\d{5}|\d{4}[-]？\d{4})[^\d]

(3)PGP签名

PGP(Pretty Good Privacy)是一个基于RSA公匙加密体系的邮件加密软件。它以PGP SIGNATURE开头，其前可能存在BEGIN字符串，再前可能存在任意长度的-字符(一般为5个)；以PGP SIGNATURE结尾，其前可能存在END字符串，其后可能存在任意长度的-字符(一般为5个)；在两PGP SIGNATURE之间是签名主体，是一个数字字母串。

正则表达式如下所示：

(\-)*(BEGIN)？(\s)*(PGP SIGNATURE)

[\s\S]*(END)？(\s)*(PGP SIGNATURE)(\-)*

(\-)*匹配任意长度的-字符；(BEGIN)？匹配BEGIN字符串，此项使用x？规则匹配0-1次；(PGP SIGNATURE)匹配PGP SIGNATURE字符串；[\s\S]*匹配任意长度的字符串；(END)？匹配END字符串。

x？是正确的正则表达式的一种规则用来表示满足条件的情况只匹配一次，即最小匹配

\b匹配文字的开头和结尾，以减少匹配错误的概率；(bc|tb)匹配bc或tb字符串；[ac-hj-np-z02-9]{39}匹配除了字符b、字符i、字符1、字符0的由小写字母和数字组成的长度为39的字符串；[ac-hj-np-z02-9]{59}匹配除了字符b、字符i、字符1、字符0外的由小写字母和数字组成的长度为59的字符串，并且与上一项做析取；1[ac-hj-np-z02-9]{8,87}匹配以1开头的，除了字符b、字符i、字符1、字符0的由小写字母和数字组成的长度为9-88的字符串，并且与上一项析取式做析取；([13]|[mn2])匹配字符1或3和字符m或n或2，[a-km-zA-HJ-NP-Z1-9]{25,39}匹配除了字符l、字符I、字符O、字符0的由字母和数字组成的长度为25-39的字符串，其与上一项拼接后的结果与上文中提到的最后一个析取式做析取。

2.关键词触发的匹配方法

若匹配规则较宽松、边界性较弱，则会出现匹配结果较多且大量匹配结果与任务目标无关的情况。假设现有文本为：“我家住在武夷山路1010号，联系我qq：5432112345”，而抽取目标为获取文本中的qq号，则正则表达式如下：

[1-9]{1}[0-9]{4,10}

若采用直接匹配方法，则匹配结果为字符串“1010”与字符串“5432112345”，匹配结果“1010”为地址，是无关匹配。因此为了降低人工筛选的成本，有必要设计一种方法降低发生无关匹配的概率，因此本发明提出了一种具有关键词触发机制的匹配方法，其流程如下：

(1)对字符串s，给定一个关键词的正则表达式R_A，获得匹配结果集A。

(2)获得匹配结果集A的首字符位置集F。

(3)根据任务目标字符串长度适当设置搜索范围为x个字符，设集合F中的第i个元素为F_i，F中的元素数为n，将s截取为n个子串，则每个子串的字符范围为[F_i,F_i+x]，设子串集为S_children。

(4)给定一个任务目标的正则表达式R_B，使用R_B在S_children中的每个元素进行匹配，获得最终的结果集。

下面以抽取文本“我家住在武夷山路1010号，联系我qq：5432112345”中的qq号为目标，举例说明该方法的流程：

(1)设计关键词的正则表达式R_A以提取“qq”字样，正则表达式R_A如下：

qq

(2)使用正则表达式R_A进行匹配，获得1个匹配结果“qq”，且可知其首字符位置为15，可得F＝{15}。

(3)由于qq号的最大字符数为11，因此适当设置搜索范围x＝14，获得一个子串“qq：5432112345”，可得S_children＝{"qq：5432112345"}。

(4)在上述子串中使用任务目标的正则表达式R_B进行匹配，抽取qq号，正则表达式R_B如下：

[1-9]{1}[0-9]{4,10}

(5)获得1个匹配结果“5432112345”。

使用直接匹配方法会产生两个匹配结果，且有一个为无关匹配，而使用具有关键词触发机制的匹配方法会产生一个匹配结果，且是有效匹配。该方法可降低了发生无关匹配的概率。

下面给出两种适用关键词法进行数据抽取的情况：

(1)QQ号码

QQ是一款老牌的即时聊天软件，其账号号码为5-11位的数字串，且不能以0开头。

其正则表达式R_A如下所示：

(qq)|(球球)

其正则表达式R_B如下所示：

[1-9]{1}[0-9]{4,10}

(qq)匹配字符串qq，(球球)匹配字符串球球。[1-9]{1}匹配长度为1的非0数字字符；[0-9]{4,10}数字字符4-10次。

(2)微信id

微信是一款即时聊天软件，其账号id为以字母开头的、以数字、字母、-字符或_字符组成的长度为6-20的字符串。

其正则表达式R_A如下所示：

(微信)|(weixin)|(wechat)

其正则表达式R_B如下所示：

[a-zA-Z][a-zA-Z\d_-]{5,19}

(微信)匹配字符串微信；(weixin)匹配字符串weixin；(wechat)匹配字符串wechat。[a-zA-Z]匹配一位字母字符；[a-zA-Z\d_-]{5,19}匹配数字字符、字母字符、-字符或_字符5-19次。

二、相似文本拓展

本部分通过对正则表达式的匹配步骤进行拓展，设计了一种相似文本拓展方法，以捕捉此类型的信息。

正则表达式的匹配是通过正则表达式引擎实现的。正则表达式引擎分为确定有穷状态自动机DFA(Deterministic Finite State Automata)引擎与非确定有穷状态自动机NFA(Non-Deterministic Finite State Automata)引擎。其主要区别在于，DFA对于同一个输入和同一个状态，一定有一个唯一确定的下一状态；而NFA则没有一个唯一确定的下一状态。每一个正则表达式都对应着一个DFA或NFA。

本发明设计的相似文本拓展方法流程如下：

(1)置入同音字库。

(2)设字母表为Σ，有穷的状态集合为S，初始状态为S₀且S₀∈S，状态转移函数为δ且δ＝S×(Σ∪{ε})→2^S，接受状态集合为F且

A＝(∑,S,S₀,δ,F)

(3)若第i个状态转移函数δ_i中存在同音字库的内容，设其共有n个同音字，则记录该转移条件的始态S_begin与终态S_end，并在S_begin与S_end间新加所有由δ_i的同音字构成的状态转移函数δ_i1…δ_in。

如现有正则表达式：

a9b

其中字符9可被拓展为其同音字，若已将其转换为NFA，且有S₀＝{0}与F＝{f}。

可以发现，该方法有效地拓展了使用基于正则表达式的数据抽取方法得到的数据集的数据数量与质量，并且对时间效率影响较小。该方法也可拓展到形近字库、表情字库等。

本发明方法验证：

1.实验数据

由于QQ是国内最常用的即时通信软件之一，QQ号码是其账号唯一识别码，其出现形式适用具有关键词触发机制的正则表达式匹配方法，其格式适用相似文本拓展方法。因此本发明实验聚焦于从文本翻译数据中提取QQ号码，实验的数据集大小为119,540条。

2.参数设置

本发明根据QQ号码的最大长度11设置搜索范围x＝14，设置正则表达式R_A：

(qq)|(球球)

设置正则表达式R_B：

[1-9]{1}[0-9]{4,10}

3.评价指标

本发明研究的问题是网页数据抽取问题，其常见评价指标为所有抽取出的数据记录数(N)与精确率(Precision)，精确率的计算公式如下：

其中，N_c为正确抽取出的数据记录数，N为所有抽取出的数据记录数。

4.实验设计

本发明设计了消融实验以观察使用具有关键词触发机制的正则表达式匹配方法与相似文本拓展方法的效果，具体实验设置如下：

Regex：

直接使用单个正则表达式匹配，不使用相似文本拓展方法。

Regex+keyword：

使用具有关键词触发机制的正则表达式匹配方法匹配，不使用相似文本拓展方法。

Regex+expression：

直接使用单个正则表达式匹配，使用相似文本拓展方法。

Regex+keyword+expression：

使用具有关键词触发机制的正则表达式匹配方法匹配，使用相似文本拓展方法。

5.实验结果与分析

实验结果如表1所示。

表1数据抽取方法实验结果

表1的实验结果说明，本发明提出具有关键词触发机制的正则表达式匹配方法与相似文本拓展方法能有效提高数据抽取的效果。

Claims

1.一种基于正则表达式的语音翻译文本信息抽取方法，它包括：

2.根据权利要求1所述的一种基于正则表达式的语音翻译文本信息抽取方法，其特征在于：所述直接匹配正则表达式库是使用直接匹配方法进行基于正则语言的数据抽取，给定一个正则表达式，直接将匹配结果作为结果集。

3.根据权利要求1所述的一种基于正则表达式的语音翻译文本信息抽取方法，其特征在于：正则表达式的匹配是通过正则表达式引擎实现的；正则表达式引擎分为确定有穷状态自动机DFA引擎与非确定有穷状态自动机NFA引擎；DFA对于同一个输入和同一个状态，一定有一个唯一确定的下一状态；而NFA则没有一个唯一确定的下一状态；每一个正则表达式都对应着一个DFA或NFA。

4.根据权利要求1所述的一种基于正则表达式的语音翻译文本信息抽取方法，其特征在于：所述构建关键词触发的正则表达式库的方法为：

步骤1.2、获得匹配结果集A的首字符位置集F；

步骤1.3、根据任务目标字符串长度设置搜索范围为x个字符，设首字符位置集F中的第i个元素为F_i，F中的元素数为n，将s截取为n个子串，则每个子串的字符范围为[F_i,F_i+x]，设子串集为S_childre；

5.根据权利要求1所述的一种基于正则表达式的语音翻译文本信息抽取方法，其特征在于：所述相似文本拓展方法的步骤包括：

步骤2.1、置入同音字库；

A＝(∑,S,S₀,δ,F)

6.根据权利要求2所述的一种基于正则表达式的语音翻译文本信息抽取方法，其特征在于：使用直接匹配方法进行基于正则语言的数据抽取它包括：

以电子邮箱地址进行直接匹配：

正则表达式如下所示：

[A-z\d～_\.！\#$％\^&\*\-]+@[a-z#_\-]+\.[A-z\d_\-\.]{2,3}

7.根据权利要求2所述的一种基于正则表达式的语音翻译文本信息抽取方法，其特征在于：使用直接匹配方法进行基于正则语言的数据抽取它包括：

以手机号进行直接匹配：

正则表达式如下所示：

[^\d](86)？(0)？1[34578]\d[-]？(\d{3}[-]？\d{5}|\d{4}[-]？\d{4})[^\d]

8.根据权利要求2所述的一种基于正则表达式的语音翻译文本信息抽取方法，其特征在于：使用直接匹配方法进行基于正则语言的数据抽取它包括：以PGP签名进行直接匹配，PGP是一个基于RSA公匙加密体系的邮件加密软件，以PGPSIGNATURE开头，其前存在BEGIN字符串，再前存在任意长度的-字符；以PGPSIGNATURE结尾，其前存在END字符串，其后存在任意长度的-字符；在两PGPSIGNATURE之间是签名主体，是一个数字字母串，

则正则表达式如下所示：

(\-)*(BEGIN)？(\s)*(PGPSIGNATURE)

[\s\S]*(END)？(\s)*(PGPSIGNATURE)(\-)*

(\-)*匹配任意长度的-字符；(BEGIN)？匹配BEGIN字符串，此项使用x？规则匹配0-1次；(PGPSIGNATURE)匹配PGPSIGNATURE字符串；[\s\S]*匹配任意长度的字符串；(END)？匹配END字符串。