CN113761231B

CN113761231B - 一种基于文本字符特征的文本数据归属描述及生成方法

Info

Publication number: CN113761231B
Application number: CN202111041957.7A
Authority: CN
Inventors: 栗青生; 张丽; 罗志强; 王雪梅; 张莉; 陶贵丽; 陈莉; 郑珺; 殷伟凤; 裘姝平
Original assignee: Tongxiang Research Institute Of Zhejiang Media Institute Co ltd; Zhejiang University of Media and Communications
Current assignee: Tongxiang Research Institute Of Zhejiang Media Institute Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2022-07-12
Anticipated expiration: 2041-09-07
Also published as: US20230244703A1; CN113761231A; WO2023035787A1

Abstract

本申请公开了一种基于文本字符特征的文本数据归属描述及生成方法，包括：获取待处理的文本数据，并对所述文本数据进行分解，得到若干个字符，并基于所述字符对所述文本数据进行特征空间表示；根据所述文本数据的特征空间表示，通过所述字符的水平位置和不同所述字符之间的关联对所述文本数据进行特征存储；根据所述文本数据的特征存储结果，生成文本数据归属。本申请能够通过特征空间的量化矩阵有效生成文本数据归属，有助于解决文本的自动生成及归属管理问题，丰富以中文为主的自然语言处理的基础理论和算法，为解决数据安全问题提供了一种新的思路，进而为未来文本大数据的科学管理提供理论和技术支持。

Description

一种基于文本字符特征的文本数据归属描述及生成方法

技术领域

本申请涉及文本数据归属生成技术领域，特别是涉及一种基于文本字符特征的文本数据归属描述及生成方法。

背景技术

在智能化技术全面进入内容行业的今天，内容相关行业尤其是新闻行业中的内容生产与内容分发正在重新被定义，数据成为信息管理和服务的核心内容，由于文本数据在信息编辑、复制、传播和存储方面的便利性，很快便成为各类媒体进行自动化生产、管理、运营和服务的主要技术和手段。2015年9月，腾讯财经推出了自动化新闻写作机器人“Dreamwriter”，用时一分钟写出了第一篇报道；11月新华社写稿机器“快笔小新”正式上岗，可以写体育赛事中英文稿件和财经信息稿；2016年由今日头条实验室和北京大学计算机研究所(万小军团队)合作研发的新闻写作机器人“张小明”在13天内，共撰写了457篇赛事报道，高峰时期仅需0.3秒就能够写出一篇简单的快讯类新闻稿；2018年11月7日，在第五届世界互联网大会中，搜狗与新华社合作开发了全球第一个“AI合成主播”，无论是写稿机器人 (Software robots)还是AI合成主播，其本质是基于智能化技术与算法的文本自动化生产。

我们在享受技术便利的同时，数据安全也成为一项重要议题，一旦写稿机器人或合成主播在进行数据抓取的过程中接受到了错误的信息或谣言信息，则必然会引起舆情危机甚至社会恐慌。在大数据时代，信息真假难辨的当下，智能内容生产技术加重了信息甄别的难度，那么如何判断数据来源、确定数据归属以及甄别数据真假就成为了如今广泛关注的问题。因此，有必要提供一种基于文本字符特征的文本数据归属描述及生成方法，通过数据指纹概念以期能为解决数据安全问题提供新思路。

发明内容

本申请的目的是提供一种基于文本字符特征的文本数据归属描述及生成方法，以解决现有技术的问题，能够通过特征空间的量化矩阵有效生成文本数据归属，有助于解决文本的自动生成及归属管理问题，丰富以中文为主的自然语言处理的基础理论和算法，为解决数据安全问题提供了一种新的思路，进而为未来文本大数据的科学管理提供理论和技术支持。

为实现上述目的，本申请提供了如下方案：本申请提供一种基于文本字符特征的文本数据归属描述及生成方法，包括：

获取待处理的文本数据，并对所述文本数据进行分解，得到若干个字符，并基于所述字符对所述文本数据进行特征空间表示；

根据所述文本数据的特征空间表示，通过所述字符的水平位置和不同所述字符之间的关联对所述文本数据进行特征存储；

根据所述文本数据的特征存储结果，生成文本数据归属。

可选地，基于所述字符对所述文本数据进行特征空间表示的方法包括：

按字段将所述文本数据中的每个字符表示成以字段、字符位置和特征点个数为变量的函数，即第一特征点位置函数；

根据每个字符的特征点位置函数，获取每个字符在整个所述文本数据中的第二特征点位置函数；

根据所述第二特征点位置函数对所述文本数据进行特征空间表示。

可选地，所述第一特征点位置函数、第二特征点位置函数、文本数据的特征空间T表示分别如式1-3所示：

f_q(x_ij，y_ij) q∈Q………………1

f(x_ij，y_ij)……………………………2

式中，(x_ij，y_ij)为第i个字符的第j个特征点的位置坐标，Q为所述文本数据中的字段数量，n为所述文本数据中的字符数量，m_i为第i个字符的特征点数量；j从1到m_i的并集

表示第i个字符的特征空间中的m_i个特征点的总和。

可选地，当所述文本数据中字符的数量n趋向于无穷大时，则所述文本数据的特征空间表达式T′如式4所示：

其中，T′用于进行大数据的文本数据的特征空间表示。

可选地，对所述文本数据进行特征存储包括：

将所述文本数据的特征空间T按照X矩阵、Y矩阵、Z矩阵的方式进行存储；其中，所述X矩阵和所述Y矩阵用于确定字符的水平位置，所述Z矩阵用于确定字符之间的关联。

可选地，所述X矩阵X_n×m用于存储所述文本数据中各字符的x 坐标，如式6所示：

所述Y矩阵Y_n×m用于存储所述文本数据中各字符的y坐标，如式 7所示：

所述Z矩阵Z_n×q用于存储所述文本数据的字符之间的关联，如式 8所示：

Z_n×q＝[z₁，z₂，…，z_q]………………………8

式中，

分别为所述文本数据中第n个字符的第m_n个特征点的x坐标、y坐标；n为所述文本数据中的字符数量；q为文本数据中的第q个字段；z_q为第q个字段中字符之间的关联。

可选地，生成文本数据归属的方法包括：

根据所述X矩阵、Y矩阵、Z矩阵以及所述X矩阵、Y矩阵、Z矩阵对应的坐标轴的特征向量生成文本数据归属。

可选地，生成文本数据归属如式9所示：

式中，f_Q(x_ij，y_ij)为文本数据归属，

分别为X矩阵、Y 矩阵、Z矩阵对应的坐标轴的特征向量。

本申请公开了以下技术效果：

本申请提供了一种基于文本字符特征的文本数据归属描述及生成方法，将待处理的文本数据分解为字符，并基于字符对文本数据进行特征空间表示，通过字符的水平位置和不同字符之间的关联对文本数据进行特征存储，根据特征存储结果生成文本数据归属；本申请开发了一种基于汉字特征的文本空间表示模型，将文本特征描述作为生成文本数据归属的主要量化依据，提出了通过特征空间的量化矩阵生成文本数据归属的方法，所生成的文本数据归属不会因为数据归属链断裂，或者修改了某些数据特征，或者经过了二次编辑或加工而丢失，有助于解决文本的自动生成及归属管理问题，丰富以中文为主的自然语言处理的基础理论和算法，为解决数据安全问题提供了一种新的思路，进而为未来文本大数据的科学管理提供理论和技术支持。在当前的大数据时代，数据管理正在经历由“用户导向型”向“内容导向型” 转变，针对浩瀚的数据海洋中的孤立文本进行归属的生成意义重大，为发展具有独立产权、自主可控的中文信息处理技术工具、设备和技术手段奠定了坚实的基础。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中基于文本字符特征的文本数据归属描述及生成方法流程图；

图2为本申请实施例中各字符的特征空间表示示意图；

图3为本申请实施例中对所述文本数据进行特征存储的示意图；

图4为本申请实施例中汉字、数字和字符的抽象结构描述示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

通常情况下数据与产生数据的人或机器都是通过在一定的机制下建立的“归属链”来进行归属判定的。这个“归属链”可以用识别身份的帐号、数据的标题和内容等进行管理。但是，对于机器人撰写的仅仅有几十个到几百个汉字的新闻文本，往往由于表示自然语言的文本字符数据的动态性和稀疏性，一旦在传播过程中数据归属链断裂，或者修改了某些数据特征，或者经过了二次编辑或加工，就很难能找到这些数据的原始归属属性。给文本数据管理带来了困难。为了解决这一问题，国内外研究机构和学者提出了很多解决方案。例如, 为了实现对版权和信息内容的归属认定和保护，方正公司曾经为我国某著名演员开发了一套个人微博专用字形，以明确数据信息的归属。方正公司还在Windows系统中为微软公司研发了一种微软专属的美黑字体，以实现版权的识别和保护。Google公司多年来也没有停止对数据专属化、个性化表示和定制服务的支持。其中，Google公司的Web font工程项目，在欧美等英语母语国家很受欢迎，通过设计自己的专属字体进行个性化出版，版权得到了最大的保护，目前， Google公司还没有推出基于汉字的Web font工程。写作机器人的出现，更加增强了数据归属计算的维度。针对日益复杂的互联网生态环境，来自不同领域的研究学者正在积极研究检测或者辨识“真实人” 与“机器人”的算法。其中基于自然语言的文本特征识别算法是目前最常用的方法。但是，由于互联网数据生成的规模大、传播速度快，以及自然语言特征计算的复杂性等因素的存在，除了对网络规模进行度量、关键字特征进行识别、对自然语言词性特征和情感特征进行分类统计和机器学习的特征计算方法之外，目前还没有发现更有效的数据归属特征计算策略，给互联网信息服务和数据管理带来了困难。为了让机器能和人一样能通过字形特征自动的判定数据信息的归属特征，三名分别来自麻省理工学院、纽约大学和多伦多大学的研究者 BrendenM.Lake1,Ruslan Salakhutdinov和Joshua B在美国《科学》杂志上发表了一篇重磅研究成果，从此揭开了从少量概念中进行学习的实例。开发了一个“只看一眼就会写字”的计算机系统，并且通过了视觉图灵测试。这一成果的出现，给大数据的自动化管理带来了福音，或许未来可以用机器根据不同的文字特征对数据进行归属计算。

参照图1所示，本实施例提供一种基于文本字符特征的文本数据归属描述及生成方法，包括：

S101、获取待处理的文本数据，并对所述文本数据进行分解，得到若干个字符，并基于所述字符对所述文本数据进行特征空间表示；

该步骤中，对所述文本数据进行分解，得到若干个字符的方法包括：

将文本数据分解为单字，再将单字分解为汉字结构，然后用文字特征点位置函数来表示文本数据中的每一个字符，主要目的是实现数据归属的量化。

作为可选地方案，本实施例中，基于所述字符对所述文本数据进行特征空间表示的方法包括：

设文本数据有Q个字段，其中第q个字段为文本内容，第q-1字段为文本标题，第q-2个字段为文本作者或归属者用户。则文本数据第q个字段中的每一字符都可以表示成以字段q、字符位置i和特征点个数j为变量的函数，即第一特征点位置函数，如式(1)所示：

f_q(x_ij，y_ij) q∈Q………………(1)

其中，(x_ij，y_ij)为第i个字符的第j个特征点的位置坐标。各字符的特征空间表示示意图如图2所示。

假设文本数据中三个字段(文本内容、文本标题、文本作者或归属者用户)是按顺序排列的，则包含所有字段的文本数据中的每一个字符可以统一表示为如式(2)所示的第二特征点位置函数：

f(x_ij，y_ij)……………………………(2)

由于下标i表示字符的位置，可以用来表示字符的个数，j表示每个字符中特征点的个数，所以，可以基于如式(2)所示的第二特征点位置函数来生成文本数据的特征空间表达式T，如式(3)所示：

其中，j从1到m_i的并集

表示第i个字符的特征空间中的m_i个特征点的总和；n表示文本数据中字符的数量；当文本数据中字符的数量n趋向于无穷大时，则文本数据的特征空间表达式T′变为：

说明汉字或字符个数趋向于无穷大，因此，表达式(4)如实的描述了目前大数据的文本数据的特征空间，表达式(4)称为文本数据的特征空间表达式；由于表达式(3)和表达式(4)是对字符所构成特征点的描述，因此，上述表达式(3)和表达式(4)适合包括汉字、英文字母或数字的所有字符。

根据所述文本数据的特征空间表示，能够计算所述文本数据的特征值；

该步骤中，所述文本数据的特征值的计算如式(5)所示：

表达式(5)表示n个字符的特征点距离之和，当n趋向于无穷大时，就可以表示大数据文本的特征值。

S102、根据所述文本数据的特征空间表示，通过所述字符的水平位置和不同所述字符之间的关联对所述文本数据进行特征存储；

该步骤中，对所述文本数据进行特征存储包括：将所述文本数据的特征空间T按照X矩阵、Y矩阵、Z矩阵的方式进行存储，如图3 所示；其中，所述X矩阵和所述Y矩阵用于确定字符的水平位置，所述Z矩阵用于确定字符之间的关联；具体为：所述X矩阵用于存储所述文本数据中各字符的x坐标，所述Y矩阵用于存储所述文本数据中各字符的y坐标，所述Z矩阵用于存储所述文本数据的字符之间的关联，例如，文本数据中“安”、“全”的关联，即图3中的z轴。

X矩阵如式(6)所示：

即特征空间T中的任意一组数据，其字符所对应的特征点横坐标 x可以组成一个矩阵，矩阵中的第一行表示文本数据的第一个字符的 m₁个特征点的x坐标，最后一行是描述文本数据最后一个字符的m_n个特征点的x坐标，该矩阵称为特征空间T的X矩阵。

Y矩阵如式(7)所示：

矩阵中的第一行表示文本数据的第一个字符的m₁个特征点的y 坐标，最后一行是描述文本数据最后一个字符的m_n个特征点的y坐标，该矩阵称为特征空间T的Y矩阵。

由于每个汉字的特征点数量不同，因此X矩阵和Y矩阵中，各字符的特征点的数量的取值可以参考所有特征点的最大值，不够的特征点以0补位。

Z矩阵如式(8)所示：

Z_n×q＝[z₁，z₂，…，z_q]…………………(8)

式中，n为文本数据中的字符数量，q为文本数据中的第q个字段，z_q为第q个字段中字符之间的关联。

S103、根据所述文本数据的特征存储结果，生成文本数据归属；

该步骤中，根据所述X矩阵、Y矩阵、Z矩阵以及x轴、y轴、z 轴上的特征向量生成文本数据归属，如式(9)所示：

式中，f_Q(x_ij，y_ij)为文本数据归属，

分别为X矩阵、Y 矩阵、Z矩阵对应的坐标轴的特征向量。其中，

三个特征向量分别由参与计算的文本字符特征来确定，主要目的是通过这三个特征向量的组合来约束文本数据归属计算的复杂程度。

为进一步验证本发明基于文本字符特征的文本数据归属描述及生成方法的有效性，以下通过一个具体的实例进行文本数据归属量化实验：

本实施例中，以人民日报的一则数据新闻为例来说明用特征点位置函数进行特征计算。假设新闻有3个字段，第一个字段表示新闻归属“人民日报”，第二个字段表示新闻标题“中国成立70周年”，第三个字段是新闻内容“北京时间十月一日上午”。

按照公式(1)，将新闻内容中的文字按顺序进行特征空间表示，各字符对应的位置函数分别为：

f₃(x_1j，y_1j)＝{北}；

f₃(x_2j，y_2j)＝{京}；

f₃(x_3j，y_3j)＝{时}；

……

为了得到位置函数的文本描述数据表达式，需要对每一汉字和字符的结构进行抽象，抽象后的数据特征点可以用位置函数来表示。根据汉字描述方法，该文本内容的第一个字“北”可以用12个特征点进行描述，当然，对于数字或字母等其它字符均可以使用这一描述方法进行描述，如图4所示是汉字、数字和字符的抽象结构描述举例。

例如，汉字“北”的特征点描述如下：

＝{<-7,-6><-2,-6><-2,-7><-2,0><-7,-4><-2,-4><-7,-2><-2, -2><1,-7><1,0><1,-6><7,-6><1,-4><6,-4><1,-2><7,-2><-7,1><7, 1><-1,0><-5,4><5,4><0,3><0,9><-8,6><8,6>}

即f₃(x₁₁，y₁₁)＝<-7,-6>，f₃(x₁₂，y₁₂)＝<-2,-6>，……， f₃(x₁₁₂，y₁₂₂)＝<8,6>。

如果将f₁、f₂、和f₃在表达式(9)所述的模型中实现，最后生成的特征数据将包含用户数据、标题数据和内容数据等整个文本的所有属性。

以上所述的实施例仅是对本申请的优选方式进行描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。