CN112989838A

CN112989838A - 文本联系实体提取方法、装置、设备及可读存储介质

Info

Publication number: CN112989838A
Application number: CN202110532086.2A
Authority: CN
Inventors: 罗震震; 张少游; 关涛; 向永清
Original assignee: Beijing Smart Technology Co Ltd
Current assignee: Beijing Smart Technology Co Ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-06-18
Anticipated expiration: 2041-05-17
Also published as: CN112989838B

Abstract

本公开一种文本联系实体提取方法、系统及设备，属于计算机技术领域，特别涉及一种文本联系实体提取方法，包括：获取用户输入的文本数据；对所述文本数据进行预处理，得到预处理后的文本；对所述预处理后的文本进行字符切分，并将切分结果以数组的方式保存，得到切分数组；获取预先存储的关键词辅助提取信息，根据所述关键词辅助提取信息从所述切分数组中提取关键词；根据所述关键词提取实体。采用本方法能够快速、全面、准确的从用户输入的文本中识别出待监控的实体，进而有效监控、发现非法摄取平台流量的用户，切实保证平台利益。

Description

文本联系实体提取方法、装置、设备及可读存储介质

技术领域

本公开属于计算机技术领域，特别涉及一种文本联系实体提取方法、装置、设备及可读存储介质。

背景技术

随着互联网技术的发展，各互联网平台层出不穷，为推广应用，增加用户量，各家平台通常推出为自身平台用户使用的平台流量。

各平台流量获取不易的背景下，一些用户为了攫取平台流量，特意跑到竞品软件采用发广告、炸屏等方式拉人头，将本属于该平台的流量诱导到其他平台，损害该平台利益。

本公开人经研究发现，现有技术中，在屏蔽非常规用户时，单纯的通过位数或者关键字提取文本进行检查、屏蔽竞品平台摄取流量，效果差强人意。

发明内容

为了至少解决上述技术问题，本公开提供了一种文本联系实体提取方法、装置、设备及可读存储介质。

根据本公开第一方面，提供了一种文本联系实体提取方法，包括：

获取用户输入的文本数据；

对所述文本数据进行预处理，得到预处理后的文本；

对所述预处理后的文本进行字符切分，并将切分结果以数组的方式保存，得到切分数组；

获取预先存储的关键词辅助提取信息，根据所述关键词辅助提取信息从所述切分数组中提取关键词；

根据所述关键词提取实体。

进一步的，所述对所述文本数据进行预处理，得到预处理后的文本，包括：

对所述文本数据按照预设方式进行预处理操作，使得经过预处理的文本数据形成统一格式。

进一步的，所述对所述文本数据按照预设方式进行预处理操作，包括：

对于用户输入的文本数据中存在转义字符的情形下，从用户输入的文本数据中提取转义字符，将转义字符转换为空字符。。

对于用户输入的文本数据中存在unicode码的情形下，从用户输入的文本数据中提取unicode码，将unicode码转换为中文。

对于用户输入的文本数据中存在停止字符的情形下，从用户输入的文本数据中提取停止字符，将停止字符转换为空格。

根据预先存储的间隔字拆分对照表，在所述文本数据中存在索引、前后部首的情形下，根据索引将前后部首合并在一起，生成新字符。

对于用户输入的文本数据中存在连续空格字符的情形下，从用户输入的文本数据中提取连续空格字符，将连续空格字符转换为空字符。

根据本发明第二方面，提供一种文本联系实体提取装置，包括：

获取模块，用于获取用户输入的文本数据；

预处理模块，用于对所述文本数据进行预处理，得到预处理后的文本；

切分模块，用于对所述预处理后的文本进行字符切分，并将切分结果以数组的方式保存，得到切分数组；

关键词提取模块，用于获取预先存储的关键词辅助提取信息，根据所述关键词辅助提取信息从所述切分数组中提取关键词；

实体提取模块，用于根据所述关键词提取实体。

根据本发明第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中任一项所述的方法的步骤。

根据第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有程序，所述程序被执行时，能够实现如第一方面中任一项所述的方法。

本公开的有益效果：采用本方法对获取到用户输入的文本数据进行预处理、字符切分等操作，能够准确、全面的提取出关键词，进而提取出实体，切实做到快速、全面、准确的从文本数据中识别出待监控的实体，有效监控、发现非法摄取平台流量的行为，为保证平台利益打下坚实基础。

附图说明

本公开上述的和 / 或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1为本公开提供的一种文本联系实体提取方法流程图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本公开，而不能解释为对本公开的限制。

为了更清楚地说明本公开，下面结合优选实施例和附图对本公开做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本公开的保护范围。

在本公开的第一方面，提供一种文本联系实体提取方法，如图1所示，包括：

步骤201：获取用户输入的文本数据；

在本公开中，用户输入的文本数据可以包含，中英文字符、阿拉伯数字、空格、转义字符、unicode码、停止字符、分隔符、全角字符、连续空格，甚至还可以包含除中英文外的其他各国语言字符。

一般来说，非常规用户在拉人的时候，会考虑平台的非法字符屏蔽等问题，我们常常可以看到非常规用户在拉人的情形下，发出的文本数据会存在各种乱码甚至是分隔符等字符的情形。基于此，如果单纯的通过文本数据的位数或者关键字进行检查提取、筛选、屏蔽该用户，那最终的结果会导致一些非常规用户成为漏网之鱼，损害平台利益。

步骤202：对文本数据进行预处理，得到预处理后的文本；

在本公开中，对用户输入的文本数据按照预设方式进行预处理操作，使得经过预处理的文本数据形成统一格式，即预处理后的文本格式统一。

对于用户输入的文本数据进行预处理操作，具体包括：

对于用户输入的文本数据中存在转义字符的情形下，从用户输入的文本数据中提取转义字符，将转义字符转换为空字符。

对于用户输入的文本数据中存在分隔符的情形下，从用户输入的文本数据中提取分隔符，将分隔符处理成空字符。

对于用户输入的文本数据中存在全角字符的情形下，从用户输入的文本数据中提取全角字符，将全角字符转换为半角字符。

对于用户输入的文本数据中存在连续空格字符的情形下，从用户输入的文本数据中提取连续空格字符，将连续空格字符转换为空字符，即将连续的多个空格字符转换为\0。

对于用户输入的文本数据判断是否存在间隔字，进一步的，根据预先存储的间隔字拆分对照表，判断用户输入的文本数据中是否存在索引、前后部首，在字符存在前后部首的情形下，根据索引将前后部首合并在一起，生成新字符。

更进一步的，在判断用户输入的文本数据中是否存在间隔字时，可以获取预先存储的间隔字拆分对照表，获取各间隔字拆分条目，其中，间隔字拆分条目中包括前部首和后部首以及对应的真实字符。对用户输入的文本数据进行判断，在用户输入的文本数据中存在间隔字拆分条目中的前部首和后部首时，判定用户输入的文本数据中存在间隔字符。

例如：V分为前部首\和后部首/，在用户输入的文本数据中存在前部首\和后部首/的情形下，将前部首\和后部首/合并，生成一个新的字符V。类似的，对于“信”分为前部首亻、i、1、l，后部首为言，在用户输入的文本数据中，存在就前部首亻、i、1、l中的任一个，以及后部首“言”的情形下，将前部首和后部首合并，生成信。

在本公开中，通过将空格、转义字符、unicode码、停止字符、全角字符、连续空格进行处理，形成格式统一的文本，甚至是可以将一些各国语言数字转换为阿拉伯数字，将汉语转换为拼音等便于后续的处理。

步骤203：对预处理后的文本进行字符切分，并将切分结果以数组的方式保存，得到切分数组；

在本公开中，对预处理后的文本进行切分处理后，将得到的切分结果按照如下数组形式保存：

[Index,length,type,val,pinyin,finalTrans,distance]

其中，Index:字符串中所处的位置索引

Length:字符串的长度

Type:字符串的类型（普通字符、中文字符、网站链接、邮箱地址、表情、时间串）

Val:字符串原值

Pinyin:字符串的拼音

FinalTrans：字符串的最终转化值

Distance:字符串前后索引的距离值

在本公开中，在对预处理后的文本进行字符切分时，检测得到的切分结果，检测到Pinyin、finalTrans的情形下需要进行二次处理，

对于汉字首先转为pinyin,如果pinyin为ling、yi等数字的需要转为数字到finalTrans，否则pinyin作为最终值；

Distance的计算则是取上一个有效数组的距离,对于url、email等非普通字符的字符串，需要加上其本身的长度。

例子：

字符串：寂寞难耐www.ciji.com

得到以下数组：

[0,1,<chn_char>,寂,ji,ji,1]

[1,1,<chn_char>,寞,mo,mo,2]

[2,1,<chn_char>,难,nan,nan,3]

[3,1,<chn_char>,耐,nai,nai,4]

[4,12,<url>,www.ciji.com,www.ciji.com,www.ciji.com,16]

本公开能够对于简单处理的文本进行切分，每一个字符作为单独存在，提取其在文本数组中的索引位置保存在另一数组。

此处需要引入一些辅助数据，包括数字字母的归一化数据、关键词数据、过滤字符数据、白名单、前词、后词数据等等。

依据上面的辅助数据，将一些邻近词划分到一起，存入索引的数组当中，用于后续算法的统计提取。此方法简单，容易执行，大大提高了工作效率。

步骤204：获取预先存储的关键词辅助提取信息，根据关键词辅助提取信息从切分数组中提取关键词；

本公开中，实体对象包括但不限于微信、QQ、手机。对于实体为微信的情形下，获取预先存储的关键词辅助提取信息，该关键词辅助提取信息为原值val，包括:

对于实体“微信”中的首字“微”，按照汉语拼音中的谐音提取关键字，也就是说，可以按照微字中文发音提取关键字，进一步的，提取中文发音为微的字符作为关键字，具体包括提取单字微、威、薇谐音字作为关键字。

对于实体“微信”中的尾字“信”，过滤掉预先存储的关键词辅助提取信息中包含信字的词组，以防止误提取，具体的包括，过滤掉预先存储的关键词辅助提取信息中前词、后词中包含有信字的词组。

本公开中，还根据最终值finalTrans提取关键词，对于最终值是jia/+的情形下，判断切分的数组下一个词，如果是wei,v，w,xin,xing,x,则认为关键词为jiawei、jiaxin,如果w后面的词是echat,则关键词为jiaweixin。

对于最终值是v/w/wei的情形，如果最终值是wei，判断下一个词是+，或者distance差值在4以内的是xin/xing,则认为关键词是weixin。如果最终值是w,后面俩个词为ei,且后续可以找到xin，则认为关键词是weixin。

在本公开另一实施例中，获取预先存储的关键词辅助提取信息，该关键词辅助提取信息为pinyin，包括:

Pinyin=v,下一个为x,则认为关键词为v

Pinyin=w,后面的为e,i,则认为关键词为wei

对于实体对象为手机的情形下，获取预先存储的关键词辅助提取信息，其中的关键词辅助提取信息为数字，具体包括对于存在一定距离的数字采取合并的方式提取。

对于实体对象为QQ的情形下，根据加载的预先存储的关键词辅助提取信息，提取QQ关键词：如Q、扣、群、QQ等，对于文本简单提取，如果存在，则说明QQ联系方式是存在的。

如果是单独的Q,需要考虑是不是QQ,这时候可以依据字符的索引数组进行判断，搜索最近的俩个关键词索引是不是大于阈值，排除一些误判的情况。

对于群的判断，可以查找q、u、n三个字符的最近距离，只要不超过阈值，就算做群关键词存在。

进一步的，还可以对关键词“腾讯”进行判断，之前文本处理已经将其转为了tengxun，此处判断索引数组的距离，组合配对就可以提取。

步骤205：根据关键词提取实体。

在本公开中，提取了关键词后，就可以根据关键词判定联系方式的类型，根据关键词的索引以及QQ的特征值提取，合并近距离的字符串得到最终的QQ号或者QQ群号，以确定对应的实体为QQ。

在本公开另一实施例中，还包括特殊分词处理，在对用户输入的文本提取实体后，采用分词数据进行关键词的查漏补缺，以避免出现漏判和误判的情况提高算法的完整性，以及算法的准确性。

在本公开的第二方面，提供一种文本联系实体提取装置，包括：

获取模块，用于获取用户输入的文本数据；

预处理模块，用于对文本数据进行预处理，得到预处理后的文本；

对于用户输入的文本数据进行预处理操作，具体包括：

对于用户输入的文本数据中存在分隔符的情形下，从用户输入的文本数据中提取分隔符，将分隔符转化为空字符。

切分模块，用于对预处理后的文本进行字符切分，并将切分结果以数组的方式保存，得到切分数组；

在本公开中，切分模块，具体用于对预处理后的文本进行切分处理后，将得到的切分结果按照如下数组形式保存：

[Index,length,type,val,pinyin,finalTrans,distance]

其中，Index:字符串中所处的位置索引

Length:字符串的长度

Val:字符串原值

Pinyin:字符串的拼音

FinalTrans：字符串的最终转化值

Distance:字符串前后索引的距离值

例子：

字符串：寂寞难耐www.ciji.com

得到以下数组：

[0,1,<chn_char>,寂,ji,ji,1]

[1,1,<chn_char>,寞,mo,mo,2]

[2,1,<chn_char>,难,nan,nan,3]

[3,1,<chn_char>,耐,nai,nai,4]

[4,12,<url>,www.ciji.com,www.ciji.com,www.ciji.com,16]

关键词提取模块，用于获取预先存储的关键词辅助提取信息，根据关键词辅助提取信息从切分数组中提取关键词；

Pinyin=v,下一个为x,则认为关键词为v

Pinyin=w,后面的为e,i,则认为关键词为wei

实体提取模块，用于根据关键词提取实体。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、 “一个”、 “所述”和“该”也可包括复数形式。应该进一步理解的是，本公开的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和 / 或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和 / 或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和 / 或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语 ( 包括技术术语和科学术语)，具有与本公开所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应当理解，以上借助优选实施例对本公开的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本公开说明书的基础上可以对各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims

1.一种文本联系实体提取方法，其特征在于，包括：

获取用户输入的文本数据；

对所述文本数据进行预处理，得到预处理后的文本；

根据所述关键词提取实体。

2.如权利要求1所述的方法，其特征在于，

所述对所述文本数据进行预处理，得到预处理后的文本，包括：

3.如权利要求2所述的方法，其特征在于，

所述对所述文本数据按照预设方式进行预处理操作，包括：

4.如权利要求2所述的方法，其特征在于，

所述对所述文本数据按照预设方式进行预处理操作，包括：

5.如权利要求2所述的方法，其特征在于，

所述对所述文本数据按照预设方式进行预处理操作，包括：

6.如权利要求2所述的方法，其特征在于，

所述对所述文本数据按照预设方式进行预处理操作，包括：

7.如权利要求2所述的方法，其特征在于，

所述对所述文本数据按照预设方式进行预处理操作，包括：

8.一种文本联系实体提取装置，其特征在于，包括：

获取模块，用于获取用户输入的文本数据；

实体提取模块，用于根据所述关键词提取实体。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序，所述程序被执行时，能够实现如权利要求1-7任一项所述的方法。