CN113722434B - 一种文本数据处理的方法、装置、计算机设备及存储介质 - Google Patents
一种文本数据处理的方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113722434B CN113722434B CN202111005627.2A CN202111005627A CN113722434B CN 113722434 B CN113722434 B CN 113722434B CN 202111005627 A CN202111005627 A CN 202111005627A CN 113722434 B CN113722434 B CN 113722434B
- Authority
- CN
- China
- Prior art keywords
- text data
- preset characters
- character
- characters
- connection network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012163 sequencing technique Methods 0.000 claims abstract description 12
- 238000010276 construction Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术,揭露了一种文本数据处理的方法、装置、计算机设备及存储介质。文本数据处理的方法可包括:读取来源于互联网页面的文本数据,对文本数据进行字符识别处理,以从文本数据中提取出预设字符;构建用于描述多个不同预设字符之间关联关系的连接网络。连接网络中的节点用于表示预设字符,连接网络中的边用于表示节点间的关联强度;通过连接网络确定各个节点在连接网络中的重要程度值,根据重要程度值对多个不同预设字符进行排序,以生成预设字符排序结果。本发明通过来源于互联网页面的大量文本数据对包含的字符进行重要程度判断,并能够确定字符排序结果,具有源数据丰富、考虑因素全面、结果准确可靠等优点。
Description
技术领域
本发明涉及人工智能技术,用于文本数据处理技术领域,更为具体来说,本发明能够提供一种文本数据处理的方法、装置、计算机设备及存储介质。
背景技术
自然语言处理(NLP,Natural Language Processing)是人工智能(AI,ArtificialIntelligence)领域中的一个非常重要的方向,随着人工智能技术发展,人们与机器之间的交互将会越来越频繁。人机交互的关键之一在于机器对于自然语言的理解程度,使机器具有类似人类的感知、推理与决策等功能,而实现这些功能的基础和关键在于机器的文本处理能力。传统的文本处理模型往往需要设置大量的参数,导致计算资源占用非常高,而且由于现有技术存在的局限,其文本处理结果的准确度和精度往往难以达到要求,亟待需要进行优化或改进。
发明内容
为解决现有技术存在的文本处理结果准确度不高、精度低和计算资源占用过高等问题,本发明具体能够提供一种文本数据处理的方法、装置、计算机设备及存储介质,以解决现有技术存在的至少一个问题。
为实现上述的技术目的,本发明提供了一种文本数据处理的方法,该方法包括但不限于如下的一个或多个步骤。
读取来源于互联网页面的文本数据,所述文本数据包含预设字符。
对所述文本数据进行字符识别处理,以从所述文本数据中提取出预设字符。
构建用于描述多个不同预设字符之间关联关系的连接网络。所述连接网络中的节点用于表示预设字符,所述连接网络中的边用于表示节点间的关联强度。
通过所述连接网络确定各个所述节点在所述连接网络中的重要程度值。
根据所述重要程度值对所述多个不同预设字符进行排序处理,以生成预设字符排序结果。
进一步地,所述构建用于描述所述多个不同预设字符之间关联关系的连接网络包括:
利用单个文本数据包含的不同预设字符构建迷你网络;所述迷你网络中的节点用于表示所述单个文本数据中的预设字符,所述迷你网络中的边用于表示在所述单个文本数据中不同预设字符间的关联强度。
对多个迷你网络进行合并处理,生成所述用于描述不同预设字符之间关联关系的连接网络。
进一步地,所述对多个迷你网络进行合并处理,生成所述用于描述不同预设字符之间关联关系的连接网络包括:
根据各个迷你网络对任意两个不同预设字符间的关联强度进行累加处理,得到任意两个不同预设字符之间的关联强度总和。
利用所述关联强度总和形成不同预设字符之间关联关系的连接网络。
进一步地,所述利用单个文本数据包含的不同预设字符构建迷你网络包括:
获取所述单个文本数据包含的字符总数量和不同预设字符之间间隔的字符数量。
根据所述字符总数量和所述间隔的字符数量确定所述不同预设字符的关联强度。
利用不同预设字符的关联强度构建迷你网络。
进一步地,所述对所述文本数据进行字符识别处理包括:
确定与当前待识别字符相对应的至少一个指代字符。
对多个所述文本数据包含的当前待识别字符和所述指代字符均进行识别,并将两者的识别结果均作为所述当前待识别字符的识别结果。
进一步地,所述对所述文本数据进行字符识别处理还包括:
将识别出的预设字符与所在文本数据中的上下文字符进行拼接,形成第一分类特征。
通过存储于特征知识库中的第二分类特征与所述第一分类特征进行匹配,所述第二分类特征中包含目标字符。
将匹配度大于阈值的第二分类特征中包含的目标字符与所述识别出的预设字符相关联。
进一步地,所述对所述文本数据进行字符识别处理包括:对用于表示人名的预设字符进行识别。
所述通过所述连接网络确定各个所述节点在所述连接网络中的重要程度值包括:通过所述连接网络确定各个所述人名对应人物的影响力分数。
为实现上述的技术目的,本发明还可提供一种文本数据处理的装置,该文本数据处理的装置可包括但不限于文本数据读取模块、预设字符识别模块、连接网络构建模块、重要程度确定模块以及排序结果生成模块。
文本数据读取模块,用于读取来源于互联网页面的文本数据,所述文本数据包含预设字符。
预设字符识别模块,用于对所述文本数据进行字符识别处理,以从所述文本数据中提取出预设字符。
连接网络构建模块,用于构建用于描述所述多个不同预设字符之间关联关系的连接网络;所述连接网络中的节点用于表示预设字符,所述连接网络中的边用于表示节点间的关联强度。
重要程度确定模块,用于通过所述连接网络确定各个所述节点在所述连接网络中的重要程度值。
排序结果生成模块,用于根据所述重要程度值对所述多个不同预设字符进行排序处理,以生成预设字符排序结果。
为实现上述的技术目的,本发明还能够提供一种计算机设备,计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行本发明任一实施例中的所述文本数据处理的方法的步骤。
为实现上述的技术目的,本发明还可提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本发明任一实施例中的所述文本数据处理的方法的步骤。
本发明的有益效果为:本发明能够通过来源于互联网页面的大量文本数据对其包含的字符进行重要程度判断,并能够确定字符排序结果,具有源数据丰富、考虑因素全面及结果准确可靠等突出优点。本发明基于连接网络确定字符之间的相互影响关系和判断出不同字符的重要程度,有助于明显地提高文本处理结果的精度,而且结果误差非常小。本发明能够快速得到不同字符的重要程度排名,特别是文档中出现的人物的影响力排名,可见本发明技术方案有助于极大地提高信息检索相关系统中的搜索、问答及推荐功能的智能化水平,实现更准确地、更快地筛选出有价值的信息,提高用户获取信息的效率和智能终端设备的交互使用体验。本发明的整个实现的过程计算量不高,可见本发明对计算资源占用较小,进而降低了对硬件设备配置的要求。
附图说明
图1示出了本发明一个或多个实施例中文本数据处理的方法的流程示意图。
图2示出了本发明一个或多个实施例中预设字符的连接网络构建的流程示意图。
图3示出了本发明一个或多个实施例中通过匹配得到与预设字符相关联的目标字符的流程示意图。
图4示出了本发明一个或多个实施例中基于BERT模型确定与预设字符相关联的目标字符的流程示意图。
图5示出了本发明一个或多个实施例中文本数据处理的装置的结构示意图。
图6示出了本发明一个或多个实施例中计算机设备的内部整体结构示意图。
具体实施方式
下面结合说明书附图对本发明实施例所提供的一种文本数据处理的方法、装置、计算机设备及存储介质进行详细的解释和说明。
如图1所示,本发明一个或多个实施例能够具体提供文本数据处理的方法,该方法可包括但不限于如下的至少一个步骤。
步骤100,读取来源于互联网页面的文本数据,文本数据包含预设字符。其中,本发明来源于互联网页面的文本数据为以Web页面形式展示在互联网的文档,具有源数据丰富、覆盖领域广泛且全面等优点。本发明能够直接从互联网网页上获取到所需要的待处理文本数据,具有数据获取难度明显降低、数据可实现实时更新等优点。
可选地,本发明从互联网页面获取的文本数据可存储于文档库中,该文档库可根据实际需要进行实时更新,本发明一个或多个实施例中的预设字符为用于表示人名的字符,即文本数据可为包含人名的文档。
步骤200,对文本数据进行字符识别处理,以从文本数据中提取出预设字符。
可选地,为提高文本识别的准确率和精度,本发明实施例对文本数据进行字符识别处理可包括:确定与当前待识别字符相对应的至少一个指代字符,例如待识别字符为“张三”,指代字符为“张全贵”、“张老三”,即本发明可通过指代字符实现类似于指代消解的功能;然后本实施例对多个文本数据包含的当前待识别字符和指代字符均进行识别,并将两者的识别结果均作为当前待识别字符的识别结果。其中,对于指代字符的确定,可根据实际需要通过已有方案实现,例如通过训练完成的关系抽取模型结合字符标记特征进行置信度判断的方式确定待识别字符对应的指代字符,该置信度阈值可选择0.95,当然不限于此。
可选地,本发明能够通过训练完成的字符识别模型对文本数据中包含的用于表示人名的预设字符进行识别,训练时可采用事先准备好的语料对模型进行训练,例如人民日报语料、热点新闻语料等,并且可在训练过程中通过人工结合自动标注数据的方式扩大训练集,以提高识别模型的训练效果。其中,本发明具体涉及的字符识别模型例如可采用已有的BERT(Bidirectional Encoder Representations from Transformers,基于转换器的双向编码表征)+CRF(Conditional Random Fields,条件随机场)结构的模型等可实现方式进行预设字符识别,当然不限于此。
如图3所示,本发明实施例对文本数据进行字符识别处理还包括步骤210至步骤230。
步骤210,将识别出的预设字符与所在文本数据中的上下文字符进行拼接,形成第一分类特征。
应当理解的是,本发明涉及的“上下文字符”是指字符所在文本位置处的上文字符和/或下文字符,以通过上文字符和/或下文字符对当前字符含义进行描述或限定。
如图4所示,本发明一些实施例通过训练完成的BERT模型实现相关字符拼接的目的。例如,通过第一BERT模型将预设字符与其在文本中的上下文字符相拼接,通过第二BERT模型将目标字符与其在文本中的上下文字符相拼接。可理解的是,BERT为常用的语言模型,本实施例对其训练过程和原理将不再进行赘述。
步骤220,通过存储于特征知识库中的第二分类特征与第一分类特征进行匹配,第二分类特征中包含目标字符。本发明实施例中的预设字符和目标字符均可为人名,特征知识库具体为对应目标字符的人物知识库,该人物知识库收录有人物相关数据,可包括但不限于ID(Identity Document,身份标识号)、通用名字、别名以及相关简介信息等等,本发明实施例的第二分类特征例如可为通用名字与相关简介信息拼接后形成的分类特征,当然不限于此。
具体实施时,本实施例能够利用第一分类特征作为检索条件,在特征知识库中检索与第一分类特征相匹配的第二分类特征,例如将各第二分类特征分别与第一分类特征进行匹配度计算。其中,匹配度计算方式具体可采用相似度计算方式,本发明实施例的相似度计算方式包括但不限于余弦(Cosine)相似度计算方案。
步骤230,将匹配度大于阈值的第二分类特征中包含的目标字符与识别出的预设字符相关联,以通过目标字符确定识别出的字符的唯一含义。本实施例中的阈值例如可以是0.95,即存在与第一分类特征的匹配度超过0.95的第二分类特征;对于用于表示人名的预设字符,将该第二分类特征中的名字作为当前预设字符指向的人物,进而确定了识别出的人名的真实身份。
本发明通过确定与识别出的预设字符相匹配的目标字符,实现为预设字符赋予唯一含义的目的,避免具有不同含义的同一字符发生使用混淆的问题。对于用于表示人名的预设字符,本发明实施例能够通过该方式避免出现重名或别名现象的问题,例如预设字符为苏东坡,本实施例能够采用目标字符(“苏轼”或者“苏子瞻”)明确该预设字符(“苏东坡”)的唯一含义,以避免由于混淆导致的人物影响力的计算误差问题。
步骤300,构建用于描述多个不同预设字符之间关联关系的连接网络。连接网络中的节点用于表示预设字符,连接网络中的边用于表示节点间的关联强度。
可选地,本发明实施例构建用于描述多个不同预设字符之间关联关系的连接网络包括:利用单个文本数据包含的不同预设字符构建迷你网络(mini_networki);迷你网络中的节点用于表示单个文本数据中的预设字符,迷你网络中的边用于表示在单个文本数据中不同预设字符间的关联强度;并对多个迷你网络进行合并处理,生成用于描述不同预设字符之间关联关系的连接网络,可见本发明实施例通过数个规模较小的迷你网络合并为规模大、考虑因素全面的连接网络。本实施例以预设字符为用于表示人名的字符进行说明:在同一篇文档中出现的所有人物之间往往存在联系,而且两个字符间距离越短,则表明这两个字符对应的人物关系越密切。例如“张三……和李四、王五……”,“张三”与“李四”的距离小于“张三”与“王五”的距离,从而可反映出“张三”与“李四”的关联关系要强于“张三”与“王五”的关联关系。
如图2所示,本发明实施例利用单个文本数据包含的不同预设字符构建迷你网络包括:
步骤301,获取单个文本数据包含的字符总数量和不同预设字符之间间隔的字符数量。本发明实施例基于文本的特征(字符总数量)和字符间距离构建迷你网络。
步骤302,根据字符总数量和间隔的字符数量确定不同预设字符的关联强度。具体地,本发明实施例按照如下方式计算不同预设字符间的关联强度,例如确定不同人物之间的关联关系强度。
其中,weight(A,B)表示当前文档中的字符A和字符B的关联强度,N表示当前文档的字符总数,head_indexB表示字符B的位置,tail_indexA表示字符A的位置。
步骤303,利用不同预设字符的关联强度构建迷你网络。该迷你网络具有至少两个预设字符,中的节点用于表示当前文本数据中的预设字符,迷你网络中的边用于表示在当前文本数据中不同预设字符间的关联强度。
如图2所示,本发明实施例对多个迷你网络进行合并处理,生成用于描述不同预设字符之间关联关系的连接网络包括步骤304至步骤305。
步骤304,根据各个迷你网络对任意两个不同预设字符间的关联强度进行累加处理,得到任意两个不同预设字符之间的关联强度总和。即对于要形成的连接网络中不同字符(例如字符A和字符B)的总关联强度,本发明实施例具体通过所有迷你网络中不同字符(例如字符A和字符B)的关联强度累加值确定。
步骤305,利用关联强度总和形成不同预设字符之间关联关系的连接网络。可见本发明能够通过来源于互联网页面的大量文本数据全面、准确且可靠地确定多个不同待识别字符之间的关联关系。
步骤400,通过连接网络确定各个节点在连接网络中的重要程度值。本发明一个或多个实施例中重要程度值具体为用于表示人名对应的人物影响力分数,可见本发明实施例能够通过连接网络确定各个人名对应任务的影响力分数。为提高影响力分数结果的准确性,本发明实施例能够通过以当前影响力分数作为初始影响力分数和进行多轮迭代的方式确认各任务最终的影响力分数,实现多轮迭代的方式可根据实际情况进行选择,例如采用pagerank(网页排名)算法进行多轮迭代以及计算人物最终的影响力分数,当然并不限于此。
步骤500,根据重要程度值对多个不同预设字符进行排序处理,以生成预设字符排序结果。本发明一些实施例能够按照重要程度由高到低的顺序将上述多个预设字符进行排序,当然本发明也可按照重要程度由高到低的顺序对上述多个预设字符进行排序。
本发明实施例中的预设字符可以为人名,重要程度值具体可以为人物影响力分数,可见本发明实施例能够提供基于文本数据的人物影响力排序方法。通过得到准确、可靠、有价值的人物影响力排序数据,本发明能够较好地应用于任务相关的搜索、问答及推荐等各类信息检索系统中,支持信息检索系统更好地将有价值的资源筛选出来。
如图5所示,与文本数据处理的方法基于同一技术构思,本发明一个或多个实施例还可提供一种文本数据处理的装置。
该文本数据处理的装置具体可包括但不限于文本数据读取模块、预设字符识别模块、连接网络构建模块、重要程度确定模块以及排序结果生成模块,具体说明如下。
文本数据读取模块用于读取来源于互联网页面的文本数据,其中,各文本数据均包含预设字符。
预设字符识别模块用于对文本数据进行字符识别处理,以从文本数据中提取出预设字符。
可选地,预设字符识别模块用于确定与当前待识别字符相对应的至少一个指代字符,并用于对多个文本数据包含的当前待识别字符和指代字符均进行识别,用于将两者的识别结果均作为当前待识别字符的识别结果。
可选地,预设字符识别模块用于将识别出的预设字符与所在文本数据中的上下文字符进行拼接,形成第一分类特征;并用于通过存储于特征知识库中的第二分类特征与第一分类特征进行匹配,第二分类特征中包含目标字符;以及用于将匹配度大于阈值的第二分类特征中包含的目标字符与识别出的预设字符相关联。
连接网络构建模块用于构建用于描述多个不同预设字符之间关联关系的连接网络。连接网络中的节点用于表示预设字符,连接网络中的边用于表示节点间的关联强度。连接网络构建模块具体用于利用单个文本数据包含的不同预设字符构建迷你网络,并用于对多个迷你网络进行合并处理,生成用于描述不同预设字符之间关联关系的连接网络。其中,迷你网络中的节点用于表示单个文本数据中的预设字符,迷你网络中的边用于表示在单个文本数据中不同预设字符间的关联强度。
可选地,连接网络构建模块用于获取单个文本数据包含的字符总数量和不同预设字符之间间隔的字符数量,并用于根据字符总数量和间隔的字符数量确定不同预设字符的关联强度,以及用于利用不同预设字符的关联强度构建迷你网络。
可选地,连接网络构建模块用于根据各个迷你网络对任意两个不同预设字符间的关联强度进行累加处理以及得到任意两个不同预设字符之间的关联强度总和,以及用于利用关联强度总和形成不同预设字符之间关联关系的连接网络。
重要程度确定模块用于通过连接网络确定各个节点在连接网络中的重要程度值。本发明一个或多个实施例中的预设字符可为用于表示人名的字符,重要程度值为用于表示人名对应的人物影响力分数。
排序结果生成模块用于根据重要程度值对多个不同预设字符进行排序处理,以生成预设字符排序结果。
如图6所示,与本发明的文本数据处理的方法基于同一技术构思,本发明还能够提供一种计算机设备。计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被该处理器执行时,使得该处理器执行本发明任一实施例中的文本数据处理的方法的步骤。本实施例文本数据处理的方法可包括但不限于如下的步骤:步骤100,读取来源于互联网页面的文本数据,文本数据包含预设字符。可选地,本发明一个或多个实施例中预设字符为用于表示人名的字符。步骤200,对文本数据进行字符识别处理,以从文本数据中提取出预设字符。可选地,本发明实施例对文本数据进行字符识别处理包括:确定与当前待识别字符相对应的至少一个指代字符;对多个文本数据包含的当前待识别字符和指代字符均进行识别,并将两者的识别结果均作为当前待识别字符的识别结果。可选地,本发明实施例对文本数据进行字符识别处理还可包括:将识别出的预设字符与所在文本数据中的上下文字符进行拼接,形成第一分类特征;通过存储于特征知识库中的第二分类特征与第一分类特征进行匹配,第二分类特征中包含目标字符;将匹配度大于阈值的第二分类特征中包含的目标字符与识别出的预设字符相关联。步骤300,构建用于描述多个不同预设字符之间关联关系的连接网络。连接网络中的节点用于表示预设字符,连接网络中的边用于表示节点间的关联强度。可选地,本发明实施例构建用于描述多个不同预设字符之间关联关系的连接网络包括:利用单个文本数据包含的不同预设字符构建迷你网络;迷你网络中的节点用于表示单个文本数据中的预设字符,迷你网络中的边用于表示在单个文本数据中不同预设字符间的关联强度;对多个迷你网络进行合并处理,生成用于描述不同预设字符之间关联关系的连接网络。可选地,利用单个文本数据包含的不同预设字符构建迷你网络包括:获取单个文本数据包含的字符总数量和不同预设字符之间间隔的字符数量,根据字符总数量和间隔的字符数量确定不同预设字符的关联强度,利用不同预设字符的关联强度构建迷你网络。可选地,本发明实施例对多个迷你网络进行合并处理,生成用于描述不同预设字符之间关联关系的连接网络包括:根据各个迷你网络对任意两个不同预设字符间的关联强度进行累加处理,得到任意两个不同预设字符之间的关联强度总和;利用关联强度总和形成不同预设字符之间关联关系的连接网络。步骤400,通过连接网络确定各个节点在连接网络中的重要程度值。本发明一个或多个实施例中重要程度值为用于表示人名对应的人物影响力分数。步骤500,根据重要程度值对多个不同预设字符进行排序处理,以生成预设字符排序结果。
如图6所示,与本发明的文本数据处理的方法基于同一技术构思,本发明还能够提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本发明任一实施例中的文本数据处理的方法的步骤。本实施例文本数据处理的方法可包括但不限于如下的步骤:步骤100,读取来源于互联网页面的文本数据,文本数据包含预设字符。可选地,本发明一个或多个实施例中预设字符为用于表示人名的字符。步骤200,对文本数据进行字符识别处理,以从文本数据中提取出预设字符。可选地,本发明实施例对文本数据进行字符识别处理包括:确定与当前待识别字符相对应的至少一个指代字符;对多个文本数据包含的当前待识别字符和指代字符均进行识别,并将两者的识别结果均作为当前待识别字符的识别结果。可选地,本发明实施例对文本数据进行字符识别处理还可包括:将识别出的预设字符与所在文本数据中的上下文字符进行拼接,形成第一分类特征;通过存储于特征知识库中的第二分类特征与第一分类特征进行匹配,第二分类特征中包含目标字符;将匹配度大于阈值的第二分类特征中包含的目标字符与识别出的预设字符相关联。步骤300,构建用于描述多个不同预设字符之间关联关系的连接网络。连接网络中的节点用于表示预设字符,连接网络中的边用于表示节点间的关联强度。可选地,本发明实施例构建用于描述多个不同预设字符之间关联关系的连接网络包括:利用单个文本数据包含的不同预设字符构建迷你网络;迷你网络中的节点用于表示单个文本数据中的预设字符,迷你网络中的边用于表示在单个文本数据中不同预设字符间的关联强度;对多个迷你网络进行合并处理,生成用于描述不同预设字符之间关联关系的连接网络。可选地,利用单个文本数据包含的不同预设字符构建迷你网络包括:获取单个文本数据包含的字符总数量和不同预设字符之间间隔的字符数量,根据字符总数量和间隔的字符数量确定不同预设字符的关联强度,利用不同预设字符的关联强度构建迷你网络。可选地,本发明实施例对多个迷你网络进行合并处理,生成用于描述不同预设字符之间关联关系的连接网络包括:根据各个迷你网络对任意两个不同预设字符间的关联强度进行累加处理,得到任意两个不同预设字符之间的关联强度总和;利用关联强度总和形成不同预设字符之间关联关系的连接网络。步骤400,通过连接网络确定各个节点在连接网络中的重要程度值。本发明一个或多个实施例中重要程度值为用于表示人名对应的人物影响力分数。步骤500,根据重要程度值对多个不同预设字符进行排序处理,以生成预设字符排序结果。
综上所述,本发明实施例能够通过来源于互联网页面的大量文本数据包含的字符进行重要程度判断,并能够根据重要程度的高低确定字符排序结果,具有考虑因素较全面、数据来源丰富和结果准确可靠等突出优点。本发明通过构建的连接网络确定不同预设字符之间的相互影响关系以及判断出不同字符的重要程度,有助于明显地提高文本处理结果的精度,该结果误差非常小。特别对于文档中出现的人物的影响力排名,本发明能够极大地提高信息检索相关系统中的搜索、问答及推荐功能的智能化水平,实现更准确地、更快地筛选出有价值的信息,提高用户获取信息的效率和相关AI设备的交互使用体验。本发明技术方案的整个实现的过程计算量不高,可见本发明对计算资源占用较小,进而有助于降低对硬件设备配置的要求。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read-Only Memory),可擦除可编辑只读存储器(EPROM,Erasable Programmable Read-Only Memory,或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM,Compact Disc Read-Only Memory)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA,Programmable Gate Array),现场可编程门阵列(FPGA,Field Programmable Gate Array)等。
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种文本数据处理的方法,其特征在于,包括:
读取来源于互联网页面的文本数据,所述文本数据包含预设字符;
对所述文本数据进行字符识别处理,以从所述文本数据中提取出预设字符;
构建用于描述多个不同预设字符之间关联关系的连接网络;所述连接网络中的节点用于表示预设字符,所述连接网络中的边用于表示节点间的关联强度;
通过所述连接网络确定各个所述节点在所述连接网络中的重要程度值;
根据所述重要程度值对所述多个不同预设字符进行排序处理,以生成预设字符排序结果;
所述构建用于描述所述多个不同预设字符之间关联关系的连接网络包括:
利用单个文本数据包含的不同预设字符构建迷你网络;所述迷你网络中的节点用于表示所述单个文本数据中的预设字符,所述迷你网络中的边用于表示在所述单个文本数据中不同预设字符间的关联强度,其中,计算不同预设字符间的关联强度公式为:
其中,weight(A,B)表示当前文档中的字符A和字符B的关联强度,N表示当前文档的字符总数,head_indexB表示字符B的位置,tail_indexA表示字符A的位置;
对多个迷你网络进行合并处理,生成所述用于描述不同预设字符之间关联关系的连接网络;
所述对多个迷你网络进行合并处理,生成所述用于描述不同预设字符之间关联关系的连接网络包括:
根据各个迷你网络对任意两个不同预设字符间的关联强度进行累加处理,得到任意两个不同预设字符之间的关联强度总和;
利用所述关联强度总和形成不同预设字符之间关联关系的连接网络;
所述对所述文本数据进行字符识别处理还包括:
将识别出的预设字符与所在文本数据中的上下文字符进行拼接,形成第一分类特征;
通过存储于特征知识库中的第二分类特征与所述第一分类特征进行匹配,所述第二分类特征中包含目标字符;
将匹配度大于阈值的第二分类特征中包含的目标字符与所述识别出的预设字符相关联。
2.根据权利要求1所述的文本数据处理的方法,其特征在于,
所述对所述文本数据进行字符识别处理包括:
确定与当前待识别字符相对应的至少一个指代字符;
对多个所述文本数据包含的当前待识别字符和所述指代字符均进行识别,并将两者的识别结果均作为所述当前待识别字符的识别结果。
3.根据权利要求1所述的文本数据处理的方法,其特征在于,
所述对所述文本数据进行字符识别处理包括:对用于表示人名的预设字符进行识别;
所述通过所述连接网络确定各个所述节点在所述连接网络中的重要程度值包括:
通过所述连接网络确定各个所述人名对应人物的影响力分数。
4.一种文本数据处理的装置,其特征在于,包括:
文本数据读取模块,用于读取来源于互联网页面的文本数据,所述文本数据包含预设字符;
预设字符识别模块,用于对所述文本数据进行字符识别处理,以从所述文本数据中提取出预设字符;
连接网络构建模块,用于构建用于描述多个不同预设字符之间关联关系的连接网络;所述连接网络中的节点用于表示预设字符,所述连接网络中的边用于表示节点间的关联强度;
重要程度确定模块,用于通过所述连接网络确定各个所述节点在所述连接网络中的重要程度值;
排序结果生成模块,用于根据所述重要程度值对所述多个不同预设字符进行排序处理,以生成预设字符排序结果;
所述构建用于描述所述多个不同预设字符之间关联关系的连接网络包括:
利用单个文本数据包含的不同预设字符构建迷你网络;所述迷你网络中的节点用于表示所述单个文本数据中的预设字符,所述迷你网络中的边用于表示在所述单个文本数据中不同预设字符间的关联强度,其中,计算不同预设字符间的关联强度公式为:
其中,weight(A,B)表示当前文档中的字符A和字符B的关联强度,N表示当前文档的字符总数,head_indexB表示字符B的位置,tail_indexA表示字符A的位置;
对多个迷你网络进行合并处理,生成所述用于描述不同预设字符之间关联关系的连接网络;
所述对多个迷你网络进行合并处理,生成所述用于描述不同预设字符之间关联关系的连接网络包括:
根据各个迷你网络对任意两个不同预设字符间的关联强度进行累加处理,得到任意两个不同预设字符之间的关联强度总和;
利用所述关联强度总和形成不同预设字符之间关联关系的连接网络;
所述对所述文本数据进行字符识别处理还包括:
将识别出的预设字符与所在文本数据中的上下文字符进行拼接,形成第一分类特征;
通过存储于特征知识库中的第二分类特征与所述第一分类特征进行匹配,所述第二分类特征中包含目标字符;
将匹配度大于阈值的第二分类特征中包含的目标字符与所述识别出的预设字符相关联。
5.一种计算机设备,其特征在于,
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至3中任一项权利要求所述文本数据处理的方法的步骤。
6.一种存储有计算机可读指令的存储介质,其特征在于,
所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至3中任一项权利要求所述文本数据处理的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005627.2A CN113722434B (zh) | 2021-08-30 | 2021-08-30 | 一种文本数据处理的方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005627.2A CN113722434B (zh) | 2021-08-30 | 2021-08-30 | 一种文本数据处理的方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722434A CN113722434A (zh) | 2021-11-30 |
CN113722434B true CN113722434B (zh) | 2024-05-03 |
Family
ID=78679310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111005627.2A Active CN113722434B (zh) | 2021-08-30 | 2021-08-30 | 一种文本数据处理的方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722434B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948447A (zh) * | 2019-02-21 | 2019-06-28 | 山东科技大学 | 基于视频图像识别的人物网络关系发现及演化呈现方法 |
CN109948073A (zh) * | 2017-09-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 内容检索方法、终端、服务器、电子设备及存储介质 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
KR20200063342A (ko) * | 2018-11-22 | 2020-06-05 | 삼성생명보험주식회사 | 글자 인식 모델의 업데이트 방법 |
CN111753198A (zh) * | 2020-06-22 | 2020-10-09 | 北京百度网讯科技有限公司 | 信息推荐方法和装置、以及电子设备和可读存储介质 |
WO2020258491A1 (zh) * | 2019-06-28 | 2020-12-30 | 平安科技(深圳)有限公司 | 通用字符识别方法、装置、计算机设备和存储介质 |
-
2021
- 2021-08-30 CN CN202111005627.2A patent/CN113722434B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948073A (zh) * | 2017-09-25 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 内容检索方法、终端、服务器、电子设备及存储介质 |
KR20200063342A (ko) * | 2018-11-22 | 2020-06-05 | 삼성생명보험주식회사 | 글자 인식 모델의 업데이트 방법 |
CN109948447A (zh) * | 2019-02-21 | 2019-06-28 | 山东科技大学 | 基于视频图像识别的人物网络关系发现及演化呈现方法 |
CN110222199A (zh) * | 2019-06-20 | 2019-09-10 | 青岛大学 | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 |
WO2020258491A1 (zh) * | 2019-06-28 | 2020-12-30 | 平安科技(深圳)有限公司 | 通用字符识别方法、装置、计算机设备和存储介质 |
CN111753198A (zh) * | 2020-06-22 | 2020-10-09 | 北京百度网讯科技有限公司 | 信息推荐方法和装置、以及电子设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113722434A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN110826328A (zh) | 关键词提取方法、装置、存储介质和计算机设备 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN109657221A (zh) | 一种文档段落排序方法、排序装置、电子设备及存储介质 | |
CN111259113B (zh) | 文本匹配方法、装置、计算机可读存储介质和计算机设备 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN105653547B (zh) | 一种提取文本关键词的方法和装置 | |
CN111488468A (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN105975639A (zh) | 搜索结果排序方法和装置 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
CN111241839A (zh) | 实体识别方法、装置、计算机可读存储介质和计算机设备 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN114925174A (zh) | 文档检索方法、装置及电子设备 | |
CN114090792A (zh) | 基于对比学习的文档关系抽取方法及其相关设备 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
CN113722434B (zh) | 一种文本数据处理的方法、装置、计算机设备及存储介质 | |
CN111859937A (zh) | 一种实体识别方法及装置 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN106570116B (zh) | 基于人工智能的搜索结果的聚合方法及装置 | |
CN115759293A (zh) | 模型训练方法、图像检索方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |