CN113761231B - 一种基于文本字符特征的文本数据归属描述及生成方法 - Google Patents

一种基于文本字符特征的文本数据归属描述及生成方法 Download PDF

Info

Publication number
CN113761231B
CN113761231B CN202111041957.7A CN202111041957A CN113761231B CN 113761231 B CN113761231 B CN 113761231B CN 202111041957 A CN202111041957 A CN 202111041957A CN 113761231 B CN113761231 B CN 113761231B
Authority
CN
China
Prior art keywords
text data
matrix
characters
text
attribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111041957.7A
Other languages
English (en)
Other versions
CN113761231A (zh
Inventor
栗青生
张丽
罗志强
王雪梅
张莉
陶贵丽
陈莉
郑珺
殷伟凤
裘姝平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongxiang Research Institute Of Zhejiang Media Institute Co ltd
Original Assignee
Tongxiang Research Institute Of Zhejiang Media Institute Co ltd
Zhejiang University of Media and Communications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongxiang Research Institute Of Zhejiang Media Institute Co ltd, Zhejiang University of Media and Communications filed Critical Tongxiang Research Institute Of Zhejiang Media Institute Co ltd
Priority to CN202111041957.7A priority Critical patent/CN113761231B/zh
Publication of CN113761231A publication Critical patent/CN113761231A/zh
Application granted granted Critical
Publication of CN113761231B publication Critical patent/CN113761231B/zh
Priority to PCT/CN2022/107220 priority patent/WO2023035787A1/zh
Priority to US18/295,185 priority patent/US20230244703A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于文本字符特征的文本数据归属描述及生成方法,包括:获取待处理的文本数据,并对所述文本数据进行分解,得到若干个字符,并基于所述字符对所述文本数据进行特征空间表示;根据所述文本数据的特征空间表示,通过所述字符的水平位置和不同所述字符之间的关联对所述文本数据进行特征存储;根据所述文本数据的特征存储结果,生成文本数据归属。本申请能够通过特征空间的量化矩阵有效生成文本数据归属,有助于解决文本的自动生成及归属管理问题,丰富以中文为主的自然语言处理的基础理论和算法,为解决数据安全问题提供了一种新的思路,进而为未来文本大数据的科学管理提供理论和技术支持。

Description

一种基于文本字符特征的文本数据归属描述及生成方法
技术领域
本申请涉及文本数据归属生成技术领域,特别是涉及一种基于文 本字符特征的文本数据归属描述及生成方法。
背景技术
在智能化技术全面进入内容行业的今天,内容相关行业尤其是新 闻行业中的内容生产与内容分发正在重新被定义,数据成为信息管理 和服务的核心内容,由于文本数据在信息编辑、复制、传播和存储方 面的便利性,很快便成为各类媒体进行自动化生产、管理、运营和服 务的主要技术和手段。2015年9月,腾讯财经推出了自动化新闻写 作机器人“Dreamwriter”,用时一分钟写出了第一篇报道;11月新 华社写稿机器“快笔小新”正式上岗,可以写体育赛事中英文稿件和 财经信息稿;2016年由今日头条实验室和北京大学计算机研究所(万 小军团队)合作研发的新闻写作机器人“张小明”在13天内,共撰 写了457篇赛事报道,高峰时期仅需0.3秒就能够写出一篇简单的快 讯类新闻稿;2018年11月7日,在第五届世界互联网大会中,搜狗 与新华社合作开发了全球第一个“AI合成主播”,无论是写稿机器人 (Software robots)还是AI合成主播,其本质是基于智能化技术与 算法的文本自动化生产。
我们在享受技术便利的同时,数据安全也成为一项重要议题,一 旦写稿机器人或合成主播在进行数据抓取的过程中接受到了错误的 信息或谣言信息,则必然会引起舆情危机甚至社会恐慌。在大数据时 代,信息真假难辨的当下,智能内容生产技术加重了信息甄别的难度, 那么如何判断数据来源、确定数据归属以及甄别数据真假就成为了如 今广泛关注的问题。因此,有必要提供一种基于文本字符特征的文本 数据归属描述及生成方法,通过数据指纹概念以期能为解决数据安全 问题提供新思路。
发明内容
本申请的目的是提供一种基于文本字符特征的文本数据归属描 述及生成方法,以解决现有技术的问题,能够通过特征空间的量化矩 阵有效生成文本数据归属,有助于解决文本的自动生成及归属管理问 题,丰富以中文为主的自然语言处理的基础理论和算法,为解决数据 安全问题提供了一种新的思路,进而为未来文本大数据的科学管理提 供理论和技术支持。
为实现上述目的,本申请提供了如下方案:本申请提供一种基于 文本字符特征的文本数据归属描述及生成方法,包括:
获取待处理的文本数据,并对所述文本数据进行分解,得到若干 个字符,并基于所述字符对所述文本数据进行特征空间表示;
根据所述文本数据的特征空间表示,通过所述字符的水平位置和 不同所述字符之间的关联对所述文本数据进行特征存储;
根据所述文本数据的特征存储结果,生成文本数据归属。
可选地,基于所述字符对所述文本数据进行特征空间表示的方法 包括:
按字段将所述文本数据中的每个字符表示成以字段、字符位置和 特征点个数为变量的函数,即第一特征点位置函数;
根据每个字符的特征点位置函数,获取每个字符在整个所述文本 数据中的第二特征点位置函数;
根据所述第二特征点位置函数对所述文本数据进行特征空间表 示。
可选地,所述第一特征点位置函数、第二特征点位置函数、文本 数据的特征空间T表示分别如式1-3所示:
fq(xij,yij) q∈Q………………1
f(xij,yij)……………………………2
Figure BDA0003249636330000031
式中,(xij,yij)为第i个字符的第j个特征点的位置坐标,Q为 所述文本数据中的字段数量,n为所述文本数据中的字符数量,mi为 第i个字符的特征点数量;j从1到mi的并集
Figure BDA0003249636330000032
表示第i个字符的 特征空间中的mi个特征点的总和。
可选地,当所述文本数据中字符的数量n趋向于无穷大时,则所 述文本数据的特征空间表达式T′如式4所示:
Figure BDA0003249636330000033
其中,T′用于进行大数据的文本数据的特征空间表示。
可选地,对所述文本数据进行特征存储包括:
将所述文本数据的特征空间T按照X矩阵、Y矩阵、Z矩阵的方 式进行存储;其中,所述X矩阵和所述Y矩阵用于确定字符的水平位 置,所述Z矩阵用于确定字符之间的关联。
可选地,所述X矩阵Xn×m用于存储所述文本数据中各字符的x 坐标,如式6所示:
Figure BDA0003249636330000041
所述Y矩阵Yn×m用于存储所述文本数据中各字符的y坐标,如式 7所示:
Figure BDA0003249636330000042
所述Z矩阵Zn×q用于存储所述文本数据的字符之间的关联,如式 8所示:
Zn×q=[z1,z2,…,zq]………………………8
式中,
Figure BDA0003249636330000043
分别为所述文本数据中第n个字符的第mn个 特征点的x坐标、y坐标;n为所述文本数据中的字符数量;q为文 本数据中的第q个字段;zq为第q个字段中字符之间的关联。
可选地,生成文本数据归属的方法包括:
根据所述X矩阵、Y矩阵、Z矩阵以及所述X矩阵、Y矩阵、Z矩 阵对应的坐标轴的特征向量生成文本数据归属。
可选地,生成文本数据归属如式9所示:
Figure BDA0003249636330000051
式中,fQ(xij,yij)为文本数据归属,
Figure BDA0003249636330000052
分别为X矩阵、Y 矩阵、Z矩阵对应的坐标轴的特征向量。
本申请公开了以下技术效果:
本申请提供了一种基于文本字符特征的文本数据归属描述及生 成方法,将待处理的文本数据分解为字符,并基于字符对文本数据进 行特征空间表示,通过字符的水平位置和不同字符之间的关联对文本 数据进行特征存储,根据特征存储结果生成文本数据归属;本申请开 发了一种基于汉字特征的文本空间表示模型,将文本特征描述作为生 成文本数据归属的主要量化依据,提出了通过特征空间的量化矩阵生 成文本数据归属的方法,所生成的文本数据归属不会因为数据归属链 断裂,或者修改了某些数据特征,或者经过了二次编辑或加工而丢失, 有助于解决文本的自动生成及归属管理问题,丰富以中文为主的自然 语言处理的基础理论和算法,为解决数据安全问题提供了一种新的思 路,进而为未来文本大数据的科学管理提供理论和技术支持。在当前 的大数据时代,数据管理正在经历由“用户导向型”向“内容导向型” 转变,针对浩瀚的数据海洋中的孤立文本进行归属的生成意义重大, 为发展具有独立产权、自主可控的中文信息处理技术工具、设备和技 术手段奠定了坚实的基础。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面 将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。
图1为本申请实施例中基于文本字符特征的文本数据归属描述 及生成方法流程图;
图2为本申请实施例中各字符的特征空间表示示意图;
图3为本申请实施例中对所述文本数据进行特征存储的示意图;
图4为本申请实施例中汉字、数字和字符的抽象结构描述示例 图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结 合附图和具体实施方式对本发明作进一步详细的说明。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例 中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本 申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算 机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻 辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或 描述的步骤。
通常情况下数据与产生数据的人或机器都是通过在一定的机制 下建立的“归属链”来进行归属判定的。这个“归属链”可以用识别 身份的帐号、数据的标题和内容等进行管理。但是,对于机器人撰写 的仅仅有几十个到几百个汉字的新闻文本,往往由于表示自然语言的 文本字符数据的动态性和稀疏性,一旦在传播过程中数据归属链断 裂,或者修改了某些数据特征,或者经过了二次编辑或加工,就很难 能找到这些数据的原始归属属性。给文本数据管理带来了困难。为了 解决这一问题,国内外研究机构和学者提出了很多解决方案。例如, 为了实现对版权和信息内容的归属认定和保护,方正公司曾经为我国 某著名演员开发了一套个人微博专用字形,以明确数据信息的归属。 方正公司还在Windows系统中为微软公司研发了一种微软专属的美 黑字体,以实现版权的识别和保护。Google公司多年来也没有停止 对数据专属化、个性化表示和定制服务的支持。其中,Google公司 的Web font工程项目,在欧美等英语母语国家很受欢迎,通过设计 自己的专属字体进行个性化出版,版权得到了最大的保护,目前, Google公司还没有推出基于汉字的Web font工程。写作机器人的出 现,更加增强了数据归属计算的维度。针对日益复杂的互联网生态环 境,来自不同领域的研究学者正在积极研究检测或者辨识“真实人” 与“机器人”的算法。其中基于自然语言的文本特征识别算法是目前 最常用的方法。但是,由于互联网数据生成的规模大、传播速度快, 以及自然语言特征计算的复杂性等因素的存在,除了对网络规模进行度量、关键字特征进行识别、对自然语言词性特征和情感特征进行分 类统计和机器学习的特征计算方法之外,目前还没有发现更有效的数 据归属特征计算策略,给互联网信息服务和数据管理带来了困难。为 了让机器能和人一样能通过字形特征自动的判定数据信息的归属特 征,三名分别来自麻省理工学院、纽约大学和多伦多大学的研究者 BrendenM.Lake1,Ruslan Salakhutdinov和Joshua B在美国《科 学》杂志上发表了一篇重磅研究成果,从此揭开了从少量概念中进行 学习的实例。开发了一个“只看一眼就会写字”的计算机系统,并且 通过了视觉图灵测试。这一成果的出现,给大数据的自动化管理带来 了福音,或许未来可以用机器根据不同的文字特征对数据进行归属计 算。
参照图1所示,本实施例提供一种基于文本字符特征的文本数据 归属描述及生成方法,包括:
S101、获取待处理的文本数据,并对所述文本数据进行分解,得 到若干个字符,并基于所述字符对所述文本数据进行特征空间表示;
该步骤中,对所述文本数据进行分解,得到若干个字符的方法包 括:
将文本数据分解为单字,再将单字分解为汉字结构,然后用文字 特征点位置函数来表示文本数据中的每一个字符,主要目的是实现数 据归属的量化。
作为可选地方案,本实施例中,基于所述字符对所述文本数据进 行特征空间表示的方法包括:
设文本数据有Q个字段,其中第q个字段为文本内容,第q-1字 段为文本标题,第q-2个字段为文本作者或归属者用户。则文本数据 第q个字段中的每一字符都可以表示成以字段q、字符位置i和特征 点个数j为变量的函数,即第一特征点位置函数,如式(1)所示:
fq(xij,yij) q∈Q………………(1)
其中,(xij,yij)为第i个字符的第j个特征点的位置坐标。各字 符的特征空间表示示意图如图2所示。
假设文本数据中三个字段(文本内容、文本标题、文本作者或归 属者用户)是按顺序排列的,则包含所有字段的文本数据中的每一个 字符可以统一表示为如式(2)所示的第二特征点位置函数:
f(xij,yij)……………………………(2)
由于下标i表示字符的位置,可以用来表示字符的个数,j表示 每个字符中特征点的个数,所以,可以基于如式(2)所示的第二特 征点位置函数来生成文本数据的特征空间表达式T,如式(3)所示:
Figure BDA0003249636330000101
其中,j从1到mi的并集
Figure BDA0003249636330000102
表示第i个字符的特征空间中的mi个 特征点的总和;n表示文本数据中字符的数量;当文本数据中字符的 数量n趋向于无穷大时,则文本数据的特征空间表达式T′变为:
Figure BDA0003249636330000103
说明汉字或字符个数趋向于无穷大,因此,表达式(4)如实的 描述了目前大数据的文本数据的特征空间,表达式(4)称为文本数 据的特征空间表达式;由于表达式(3)和表达式(4)是对字符所构 成特征点的描述,因此,上述表达式(3)和表达式(4)适合包括汉字、英文字母或数字的所有字符。
根据所述文本数据的特征空间表示,能够计算所述文本数据的特 征值;
该步骤中,所述文本数据的特征值的计算如式(5)所示:
Figure BDA0003249636330000104
表达式(5)表示n个字符的特征点距离之和,当n趋向于无穷 大时,就可以表示大数据文本的特征值。
S102、根据所述文本数据的特征空间表示,通过所述字符的水平 位置和不同所述字符之间的关联对所述文本数据进行特征存储;
该步骤中,对所述文本数据进行特征存储包括:将所述文本数据 的特征空间T按照X矩阵、Y矩阵、Z矩阵的方式进行存储,如图3 所示;其中,所述X矩阵和所述Y矩阵用于确定字符的水平位置,所 述Z矩阵用于确定字符之间的关联;具体为:所述X矩阵用于存储所述文本数据中各字符的x坐标,所述Y矩阵用于存储所述文本数据中 各字符的y坐标,所述Z矩阵用于存储所述文本数据的字符之间的关 联,例如,文本数据中“安”、“全”的关联,即图3中的z轴。
X矩阵如式(6)所示:
Figure BDA0003249636330000111
即特征空间T中的任意一组数据,其字符所对应的特征点横坐标 x可以组成一个矩阵,矩阵中的第一行表示文本数据的第一个字符的 m1个特征点的x坐标,最后一行是描述文本数据最后一个字符的mn个特征点的x坐标,该矩阵称为特征空间T的X矩阵。
Y矩阵如式(7)所示:
Figure BDA0003249636330000121
矩阵中的第一行表示文本数据的第一个字符的m1个特征点的y 坐标,最后一行是描述文本数据最后一个字符的mn个特征点的y坐 标,该矩阵称为特征空间T的Y矩阵。
由于每个汉字的特征点数量不同,因此X矩阵和Y矩阵中,各字 符的特征点的数量的取值可以参考所有特征点的最大值,不够的特征 点以0补位。
Z矩阵如式(8)所示:
Zn×q=[z1,z2,…,zq]…………………(8)
式中,n为文本数据中的字符数量,q为文本数据中的第q个字 段,zq为第q个字段中字符之间的关联。
S103、根据所述文本数据的特征存储结果,生成文本数据归属;
该步骤中,根据所述X矩阵、Y矩阵、Z矩阵以及x轴、y轴、z 轴上的特征向量生成文本数据归属,如式(9)所示:
Figure BDA0003249636330000122
式中,fQ(xij,yij)为文本数据归属,
Figure BDA0003249636330000123
分别为X矩阵、Y 矩阵、Z矩阵对应的坐标轴的特征向量。其中,
Figure BDA0003249636330000124
三个特征向 量分别由参与计算的文本字符特征来确定,主要目的是通过这三个特 征向量的组合来约束文本数据归属计算的复杂程度。
为进一步验证本发明基于文本字符特征的文本数据归属描述及 生成方法的有效性,以下通过一个具体的实例进行文本数据归属量化 实验:
本实施例中,以人民日报的一则数据新闻为例来说明用特征点位 置函数进行特征计算。假设新闻有3个字段,第一个字段表示新闻归 属“人民日报”,第二个字段表示新闻标题“中国成立70周年”,第 三个字段是新闻内容“北京时间十月一日上午”。
按照公式(1),将新闻内容中的文字按顺序进行特征空间表示, 各字符对应的位置函数分别为:
f3(x1j,y1j)={北};
f3(x2j,y2j)={京};
f3(x3j,y3j)={时};
……
为了得到位置函数的文本描述数据表达式,需要对每一汉字和字 符的结构进行抽象,抽象后的数据特征点可以用位置函数来表示。根 据汉字描述方法,该文本内容的第一个字“北”可以用12个特征点 进行描述,当然,对于数字或字母等其它字符均可以使用这一描述方 法进行描述,如图4所示是汉字、数字和字符的抽象结构描述举例。
例如,汉字“北”的特征点描述如下:
Figure BDA0003249636330000131
={<-7,-6><-2,-6><-2,-7><-2,0><-7,-4><-2,-4><-7,-2><-2, -2><1,-7><1,0><1,-6><7,-6><1,-4><6,-4><1,-2><7,-2><-7,1><7, 1><-1,0><-5,4><5,4><0,3><0,9><-8,6><8,6>}
即f3(x11,y11)=<-7,-6>,f3(x12,y12)=<-2,-6>,……, f3(x112,y122)=<8,6>。
如果将f1、f2、和f3在表达式(9)所述的模型中实现,最后生 成的特征数据将包含用户数据、标题数据和内容数据等整个文本的所 有属性。
以上所述的实施例仅是对本申请的优选方式进行描述,并非对本 申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普 通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本 申请权利要求书确定的保护范围内。

Claims (5)

1.一种基于文本字符特征的文本数据归属描述及生成方法,其特征在于,包括:
获取待处理的文本数据,并对所述文本数据进行分解,得到若干个字符,并基于所述字符对所述文本数据进行特征空间表示;
根据所述文本数据的特征空间表示,通过所述字符的水平位置和不同所述字符之间的关联对所述文本数据进行特征存储;
根据所述文本数据的特征存储结果,生成文本数据归属;
基于所述字符对所述文本数据进行特征空间表示的方法包括:
按字段将所述文本数据中的每个字符表示成以字段、字符位置和特征点个数为变量的函数,即第一特征点位置函数;
根据每个字符的特征点位置函数,获取每个字符在整个所述文本数据中的第二特征点位置函数;
根据所述第二特征点位置函数对所述文本数据进行特征空间表示;
对所述文本数据进行特征存储包括:
将所述文本数据的特征空间T按照X矩阵、Y矩阵、Z矩阵的方式进行存储;其中,所述X矩阵和所述Y矩阵用于确定字符的水平位置,所述Z矩阵用于确定字符之间的关联;
生成文本数据归属的方法包括:
根据所述X矩阵、Y矩阵、Z矩阵以及所述X矩阵、Y矩阵、Z矩阵对应的坐标轴的特征向量生成文本数据归属。
2.根据权利要求1所述的基于文本字符特征的文本数据归属描述及生成方法,其特征在于,所述第一特征点位置函数、第二特征点位置函数、文本数据的特征空间T表示分别如式1-3所示:
fq(xij,yij) q∈Q………………1
f(xij,yij)……………………………2
Figure FDA0003614680690000021
式中,(xij,yij)为第i个字符的第j个特征点的位置坐标,Q为所述文本数据中的字段数量,n为所述文本数据中的字符数量,mi为第i个字符的特征点数量;j从1到mi的并集
Figure FDA0003614680690000022
表示第i个字符的特征空间中的mi个特征点的总和。
3.根据权利要求2所述的基于文本字符特征的文本数据归属描述及生成方法,其特征在于,当所述文本数据中字符的数量n趋向于无穷大时,则所述文本数据的特征空间表达式T′如式4所示:
Figure FDA0003614680690000023
其中,T′用于进行大数据的文本数据的特征空间表示。
4.根据权利要求1所述的基于文本字符特征的文本数据归属描述及生成方法,其特征在于,所述X矩阵Xn×m用于存储所述文本数据中各字符的x坐标,如式6所示:
Figure FDA0003614680690000031
所述Y矩阵Yn×m用于存储所述文本数据中各字符的y坐标,如式7所示:
Figure FDA0003614680690000032
所述Z矩阵Zn×q用于存储所述文本数据的字符之间的关联,如式8所示:
Zn×q=[z1,z2,…,zq]………………………8式中,
Figure FDA0003614680690000033
分别为所述文本数据中第n个字符的第mn个特征点的x坐标、y坐标;n为所述文本数据中的字符数量;q为文本数据中的第q个字段;zq为第q个字段中字符之间的关联。
5.根据权利要求1所述的基于文本字符特征的文本数据归属描述及生成方法,其特征在于,生成文本数据归属如式9所示:
Figure FDA0003614680690000034
式中,fQ(xij,yij)为文本数据归属,
Figure FDA0003614680690000035
分别为X矩阵、Y矩阵、Z矩阵对应的坐标轴的特征向量。
CN202111041957.7A 2021-09-07 2021-09-07 一种基于文本字符特征的文本数据归属描述及生成方法 Active CN113761231B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111041957.7A CN113761231B (zh) 2021-09-07 2021-09-07 一种基于文本字符特征的文本数据归属描述及生成方法
PCT/CN2022/107220 WO2023035787A1 (zh) 2021-09-07 2022-07-22 一种基于文本字符特征的文本数据归属描述及生成方法
US18/295,185 US20230244703A1 (en) 2021-09-07 2023-04-03 Text data attribution description and generation method based on text character features

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111041957.7A CN113761231B (zh) 2021-09-07 2021-09-07 一种基于文本字符特征的文本数据归属描述及生成方法

Publications (2)

Publication Number Publication Date
CN113761231A CN113761231A (zh) 2021-12-07
CN113761231B true CN113761231B (zh) 2022-07-12

Family

ID=78793383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111041957.7A Active CN113761231B (zh) 2021-09-07 2021-09-07 一种基于文本字符特征的文本数据归属描述及生成方法

Country Status (3)

Country Link
US (1) US20230244703A1 (zh)
CN (1) CN113761231B (zh)
WO (1) WO2023035787A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761231B (zh) * 2021-09-07 2022-07-12 浙江传媒学院 一种基于文本字符特征的文本数据归属描述及生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587540A (zh) * 2009-04-16 2009-11-25 大连理工大学 一种利用页面文档几何失真检测文档来源的打印机取证方法
CN104834389A (zh) * 2015-05-13 2015-08-12 安阳师范学院 一种汉字Webfont生成方法
CN111027563A (zh) * 2019-12-09 2020-04-17 腾讯云计算(北京)有限责任公司 一种文本检测方法、装置及识别系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US7496500B2 (en) * 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US9373029B2 (en) * 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
CN103810484B (zh) * 2013-10-29 2017-10-10 西安电子科技大学 基于打印字库分析的打印文件鉴别方法
CN107291723B (zh) * 2016-03-30 2021-04-30 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
US11823013B2 (en) * 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding
WO2019101338A1 (en) * 2017-11-24 2019-05-31 Ecole Polytechnique Federale De Lausanne (Epfl) Method of handwritten character recognition confirmation
CN108287820B (zh) * 2018-01-12 2021-06-11 鼎富智能科技有限公司 一种文本表示的生成方法及装置
CN108829889A (zh) * 2018-06-29 2018-11-16 国信优易数据有限公司 一种新闻文本分类方法以及装置
US20200134090A1 (en) * 2018-10-26 2020-04-30 Ca, Inc. Content exposure and styling control for visualization rendering and narration using data domain rules
CN110347841B (zh) * 2019-07-18 2021-07-02 北京香侬慧语科技有限责任公司 一种文档内容分类的方法、装置、存储介质及电子设备
CN112990178B (zh) * 2021-04-13 2022-06-24 中国科学院大学 一种基于字符切分的文本数字信息嵌入、提取方法及系统
CN113761231B (zh) * 2021-09-07 2022-07-12 浙江传媒学院 一种基于文本字符特征的文本数据归属描述及生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587540A (zh) * 2009-04-16 2009-11-25 大连理工大学 一种利用页面文档几何失真检测文档来源的打印机取证方法
CN104834389A (zh) * 2015-05-13 2015-08-12 安阳师范学院 一种汉字Webfont生成方法
CN111027563A (zh) * 2019-12-09 2020-04-17 腾讯云计算(北京)有限责任公司 一种文本检测方法、装置及识别系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Distinguishing Characteristics of Robotic Writing";Dumitra Aurora ET AL.;《Journal of forensic sciences》;20190331;第64卷(第2期);第468-474页 *
"写字机器人书写特征的识别与研究";刘畅 等;《广东公安科技》;20200630;第28卷(第02期);第30-32页 *
"基于字形动态描述库的Webfont汉字生成方法";熊晶 等;《计算机应用与软件》;20160531;第33卷(第5期);第61-65页 *
"汉字动态生成的结构与风格模型";栗青生 等;《北京大学学报(自然科学版)》;20170331;第53卷(第2期);第219-229页 *

Also Published As

Publication number Publication date
US20230244703A1 (en) 2023-08-03
CN113761231A (zh) 2021-12-07
WO2023035787A1 (zh) 2023-03-16

Similar Documents

Publication Publication Date Title
Hogenboom et al. A survey of event extraction methods from text for decision support systems
CN107153641B (zh) 评论信息确定方法、装置、服务器及存储介质
CN113761231B (zh) 一种基于文本字符特征的文本数据归属描述及生成方法
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
Kovaliuk et al. Semantic analysis and natural language text search for internet portal
Jiang et al. Research on BIM-based Construction Domain Text Information Management.
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
Wang et al. Toxic comment classification based on bidirectional gated recurrent unit and convolutional neural network
Vargas et al. Rhetorical structure approach for online deception detection: A survey
CN113448918B (zh) 一种企业科研成果管理方法及管理平台、设备、存储介质
Gondwe Exploring the multifaceted nature of generative ai in journalism studies: A typology of scholarly definitions
Malagi et al. Content Modelling Intelligence System Based on Automatic Text Summarization
Thushara et al. A graph-based model for keyword extraction and tagging of research documents
Bala et al. Using Twitter Data and Lexicon-Based Sentiment Analysis to Study the Attitude towards Cryptocurrency Market and Blockchain Technology
Dai et al. Knowledge Graph Construction for Intelligent Media Based on Mobile Internet
Caruana et al. An Analysis of the Relationship between Words within the Voynich Manuscript
Barzokas et al. Studying the Evolution of Greek Words via Word Embeddings
Liu et al. Practical Skills of Business English Correspondence Writing Based on Data Mining Algorithm
Taylor Information extraction tools: Deciphering human language
CN117076661B (zh) 面向预训练大语言模型调优的立法规划意图识别方法
Lak et al. Providing suitable literary alternatives to sentences through text mining
Wu Design of Question Answering Interactive Open Platform for Power Grid Business Acceptance Robot
Chaabene et al. Semantic annotation for the “on demand graphical representation” of variable data in Web documents
Yu et al. Context enhanced keyword extraction for sparse geo-entity relation from web texts
Liu Word Frequency Analysis and Intelligent Word Recognition in Chinese Literature Based on Neighborhood Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220620

Address after: 310018 No. 998, Xueyuan street, Qiantang New District, Hangzhou, Zhejiang

Applicant after: ZHEJIANG University OF MEDIA AND COMMUNICATIONS

Applicant after: Tongxiang Research Institute of Zhejiang Media Institute Co.,Ltd.

Address before: 310018 No. 998, Xueyuan street, Qiantang New District, Hangzhou, Zhejiang

Applicant before: ZHEJIANG University OF MEDIA AND COMMUNICATIONS

GR01 Patent grant
GR01 Patent grant