CN107977435A - 一种文本信息的预处理方法及装置 - Google Patents

一种文本信息的预处理方法及装置 Download PDF

Info

Publication number
CN107977435A
CN107977435A CN201711257607.8A CN201711257607A CN107977435A CN 107977435 A CN107977435 A CN 107977435A CN 201711257607 A CN201711257607 A CN 201711257607A CN 107977435 A CN107977435 A CN 107977435A
Authority
CN
China
Prior art keywords
expression
matching
text message
screening
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711257607.8A
Other languages
English (en)
Other versions
CN107977435B (zh
Inventor
李德彦
晋耀红
席丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co., Ltd
Original Assignee
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhou Taiyue Software Co Ltd filed Critical Beijing Shenzhou Taiyue Software Co Ltd
Priority to CN201711257607.8A priority Critical patent/CN107977435B/zh
Publication of CN107977435A publication Critical patent/CN107977435A/zh
Application granted granted Critical
Publication of CN107977435B publication Critical patent/CN107977435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Abstract

本申请提供一种文本信息的预处理方法及装置,利用替换文件路径调取替换文件,通过替换文件内的多个替换表达式对待处理文本信息进行匹配和信息替换,可实现将文本信息通过一次预处理过程,就完成文本信息多处不同文本内容的替换,并且一个替换表达式即可完成一次替换,不仅避免操作重复,而且降低运算量,提高替换效率;同样,利用筛选文件路径调取筛选文件,调取筛选文件中的多个筛选表达式,可实现将文本信息通过一次预处理过程,完成文本信息多处不同文本内容的筛选,并且一个筛选表达式即可完成一次筛选,既避免操作重复,又降低运算量,提高筛选效率;并且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可,提高预处理的灵活性。

Description

一种文本信息的预处理方法及装置
技术领域
本申请涉及数据挖掘领域,尤其涉及一种文本信息的预处理方法及装置。
背景技术
数据挖掘是从大量的、不完全的、有噪声的、模糊的以及随机的实际应用数据中提取隐含在其中的人们预先未知但又是有潜在价值的信息和知识的过程。数据挖掘流程通常包括:文本信息加载、文本信息预处理、数据挖掘算法实现和结果展示等主要步骤,其中,文本信息预处理包含特定文本信息替换和特定文本信息筛选,特定文本信息替换为将文本信息中特定的语义相同,却表达方式不同的文本内容,用相同的特定文本内容进行替换,以增加数据挖掘算法的准确性;特定文本信息筛选为对文本信息中特定的语义相同的近似文本内容进行去除或保留,以提高数据挖掘算法的运算速率。
随着互联网技术的快速发展,网络信息呈爆炸式增长,这给基于海量信息的数据挖掘提供良好的数据基础。但是,随着博客、微博等各种形式的社交网络媒体或平台的兴起,文本内容包括的文字逐渐趋于口语化、浓缩化,这无疑提高了文本信息预处理的难度。例如,工作人员想做关于网民对可乐歌词瓶在互联网的口碑的数据挖掘,以了解可乐歌词瓶的市场占有率,为市场营销人员制定营销策略提供数据支持。然而工作人员所搜集的文本信息中,不仅只有“可口可乐歌词瓶”代表可口可乐歌词瓶,类似的“cola歌词瓶”“cocacola歌词瓶”等词语同样代表着可口可乐;并且网民对其的评价词语也不尽相同。如文本内容为“我今天买可乐,发现一个歌词与瓶子组合的活动,还挺不错的”,在文本信息预处理的过程中,根据实际数据挖掘的需求,有时需要将“我今天买可乐,发现一个歌词与瓶子组合的活动”替换为标准词语“可口可乐歌词瓶”,以及将“还挺不错的”替换为“好评”。同样,根据实际的挖掘需求,有时需要将上述文本信息中“可乐”、“歌词”、“瓶子”和“挺不错”进行筛选。
但是,现有的文本数据预处理方法,在当需要将文本信息中需进行多个不同文本内容的替换,或对多个不同文本内容进行筛选时,则要针对多个文本内容进行多次替换/筛选的步骤,由于需要进行多次替换/筛选操作,因此,无法实现将多个不同文本内容同时替换/筛选,从而增加文本信息预处理的繁琐程度,并且增加运算量,降低文本信息预处理的效率。
发明内容
本申请提供了一种文本信息的预处理方法及装置,以解决现有的文本数据预处理方法无法实现将多个不同文本内容同时替换/筛选,从而增加文本信息预处理的繁琐程度,并且增加运算量,降低文本信息预处理的效率的问题。
第一方面,本申请提供了一种文本信息的预处理方法包括:
获取待处理文本信息和所述待处理文本信息对应的替换文件路径;
根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度,所述匹配粒度为全信息匹配或拆句匹配;
根据第一替换表达式的匹配粒度和有效文本信息,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配;
如果匹配成功,则根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息;
将所述替换文件中的另一替换表达式作为第一替换表达式,重复执行所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配的步骤,直至遍历所述替换文件中所有的替换表达式为止;
其中,生成所述通过业务词典获得的替换表达式的步骤如下:
获取所述待处理文本信息对应的业务词典;
利用所述业务词典中的每个词语,生成对应的正则表达式;
根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。
第二方面,本申请还提供了一种文本信息的预处理方法包括:
步骤S1:获取待处理文本信息和所述待处理文本信息对应的筛选文件路径;
步骤S2:根据所述筛选文件路径,调取所述筛选文件路径对应的筛选文件,其中,所述筛选文件包括多个筛选表达式,每个所述筛选表达式均包括匹配表达式、匹配表达式类型、匹配类型、匹配粒度、操作类型和筛选粒度,所述匹配粒度为全信息匹配或拆句匹配,所述筛选粒度为全文筛选或拆句筛选;
步骤S3:根据所述第一筛选表达式的匹配粒度,利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式;
如果匹配失败,则执行步骤S8;如果匹配成功,则执行步骤S4-S7;
步骤S4:根据所述第一筛选表达式的匹配类型和匹配文本信息,确定有效文本信息;
步骤S5:根据所述第一筛选表达式的匹配粒度和有效文本信息,确定目标文本信息;
步骤S6:根据所述第一筛选表达式的操作类型和筛选粒度,对所述目标文本信息中的有效文本信息进行筛选,得到筛选信息;
步骤S7:判断所述筛选信息的长度是否为零,如果所述筛选信息的长度为零,则结束筛选;如果所述筛选信息的长度大于零,则执行步骤S8;
步骤S8:将所述筛选文件中的另一筛选表达式作为第一筛选表达式,转至步骤S3,直至遍历所述替换文件中所有的替换表达式为止。
第三方面,本申请还提供了一种文本信息的预处理装置包括:
获取模块,用于获取待处理文本信息和所述待处理文本信息对应的替换文件路径;
调取模块,用于根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度,所述匹配粒度为全信息匹配或拆句匹配;
匹配模块,用于根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一替换表达式为所述替换文件中的任意一个替换表达式;
判断模块,用于如果匹配成功,则根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息;
循环模块,用于将所述替换文件中的另一替换表达式作为第一替换表达式,转至匹配模块,直至遍历所述替换文件中所有的替换表达式为止;
其中,生成所述通过业务词典获得的替换表达式的步骤如下:
获取所述待处理文本信息对应的业务词典;
利用所述业务词典中的每个词语,生成对应的正则表达式;
根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。
第四方面,本申请还提供了一种文本信息的预处理装置包括:
获取模块,用于获取待处理文本信息和所述待处理文本信息对应的筛选文件路径;
调取模块,用于根据所述筛选文件路径,调取所述筛选文件路径对应的筛选文件,其中,所述筛选文件包括多个筛选表达式,每个所述筛选表达式均包括匹配表达式、匹配类型、匹配粒度、操作类型和筛选粒度,所述匹配粒度为全信息匹配或拆句匹配,所述筛选粒度为全文筛选或拆句筛选;
匹配模块,用于根据所述第一筛选表达式的匹配粒度,利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式;
如果匹配失败,则转至循环模块;如果匹配成功,则转至确定模块;
确定模块,用于根据所述第一筛选表达式的匹配粒度和有效文本信息,确定目标文本信息;
筛选模块,用于根据所述第一筛选表达式的操作类型和筛选粒度,对所述目标文本信息中的有效文本信息进行筛选,得到筛选信息;
判断模块,用于判断所述筛选信息的长度是否为零;如果所述筛选信息的长度等于零,则结束筛选;如果所述筛选信息的长度大于零,则转至循环模块;
循环模块,用于所述筛选文件中的另一筛选表达式作为第一筛选表达式,转至匹配模块,直至遍历所述筛选文件中所有的筛选表达式为止。
由以上技术方案可知,本申请提供一种文本信息的预处理方法及装置,利用替换文件路径调取替换文件路径对应的替换文件,通过替换文件内的多个替换表达式对待处理文本信息进行匹配和信息替换,可实现将文本信息通过一次预处理过程,完成文本信息中多处不同文本内容的替换,并且一个替换表达式即可完成一种文本内容的替换,不仅避免操作重复,而且降低运算量,提高替换效率;同样,利用筛选文件路径调取对应的筛选文件,通过筛选文件内的多个筛选表达式对待处理文本信息进行匹配和信息筛选,可实现将文本信息通过一次预处理过程,实现文本信息中多处不同文本内容的筛选,并且一个筛选表达式即可完成一种文本内容的筛选,既避免操作重复,又降低运算量,提高筛选效率;并且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可,与现有技术中录入大量的正则表达式相比,降低工作人员的工作量,提高预处理的灵活性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种文本信息的预处理方法的一个实施例的方法流程图;
图2为图1中步骤13的一个实施例的方法流程图;
图3为图1中步骤13的另一个实施例的方法流程图;
图4为本申请提供的一种文本信息的预处理方法的另一个实施例的方法流程图;
图5为图4中步骤47的一个实施例的方法流程图;
图6为本申请提供的一种文本信息的预处理装置的一个实施例的结构示意图;
图7为本申请提供的一种文本信息的预处理装置的另一个实施例的结构示意图。
具体实施方式
参见图1,第一方面,本申请实施例提供一种文本信息的预处理方法包括:
步骤11:获取待处理文本信息和所述待处理文本信息对应的替换文件路径。
待处理文本信息包括获取来自用户生成内容中的文本信息,包括获取来自新闻渠道、微博渠道和论坛渠道的文本信息,将这些渠道中的文本内容作为文本信息。其中,新闻渠道包含新浪、网易、搜狐、腾讯和《今日头条》等;微博渠道包含新浪微博等;论坛渠道包含天涯、百度贴吧、知乎等。对于新闻渠道,用新闻的标题和报道内容作为文本信息;对于论坛渠道,把帖子的文本内容作为文本信息。对于微博渠道,将微博帖子的文本内容作为文本信息,通过如上方法获取的文本,能很好的获得新的文本;也可以包括法律文件等文本信息。
替换文件路径是替换文件的绝对路径,绝对路径是指目录下的绝对位置,直接到达目标位置,通常是从盘符开始的路径,即完整的描述文件位置的路径。绝对路径由一系列连续的目录组成,中间用斜线分隔,直到要指定的目录或文件,路径中的最后一个名称即为要指向的目录或文件,例如,C:\windows\system32\cmd.exe。
步骤12:根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度,所述匹配粒度为全信息匹配或拆句匹配。
本步骤在实施的过程中,可对替换文件路径和替换文件路径对应的替换文件进行校验,即保证替换文件路径存在,并且利用替换文件路径所调取的替换文件不为空文件。
替换文件中的替换表达式为多个,即调取一个替换文件,即可调取其内含有的多个替换表达式,可实现多个不同信息的替换,减少预处理的繁琐性,提高运算速度。
匹配表达式类型可为文本类型或规则表达式类型,文本类型表示匹配表达式为文本信息,例如关键词或者句子。规则表达式类型表示匹配表达式为正则表达式。正则表达式是一种正规的描述字符串模式的表达式,可以用来进行文本匹配,具体为在给定的文本信息中查找与给定的正则表达式相匹配的部分。正则表达式由一些普通字符和元字符组成,普通字符包括大小写的字母和数字,元字符具有特殊的含义,例如“.{2,3},(男|女)”。
匹配表达式采用多种形式,适应不同撰写风格的文本,例如撰写较为标准的法律文文本信息等,可采用文本类型的匹配表达式;撰写较为随意口语化的文本信息,可采用规则表达式类型的匹配表达式,以适应不同的预处理需求,提高匹配灵活性和匹配精度。
步骤13:根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一替换表达式为所述替换文件中的任意一个替换表达式。
步骤14:如果匹配失败,则执行步骤16。
如果匹配成功,则执行步骤15和16。
步骤15:根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息。
优选地,在此步骤之后,判断替换之后的文本信息的长度是否为零,如果不为零,则执行步骤16;如果为零,则结束,以进行安全性校验,防止由于录入的替换表达式错误而造成的系统崩溃,提高程序运行的安全性。
步骤16:将所述替换文件中的另一替换表达式作为第一替换表达式,返回执行步骤13,直至遍历所述替换文件中所有的替换表达式为止。
其中,生成所述通过业务词典获得的替换表达式的步骤如下:
步骤101:获取所述待处理文本信息对应的业务词典。
每个待处理文本信息会有相应的业务词典,业务词典中的词语与待处理文本信息的内容相适应,例如待处理文本信息是关于金融行业的文本内容,那么相应的业务词典中含有“信用卡”、“余额”等相应的词语。
步骤102:利用所述业务词典中的每个词语,生成对应的正则表达式。
业务词典中的词语,如“余额”,可生成对应的正则表达式“余.{0,2}额”;信用卡,可生成对应的正则表达式为“信.{0,2}用.{0,2}卡”。
步骤103:根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。
利用业务词典的词语生成的正则表达式间隔的字数为预先设定,并且生成的正则表达式较为简单,所以由该正则表达式生成的替换表达式中,直接将匹配粒度设为全信息匹配。通过该种方法生成的替换表达式可适应较短词语的替换或者对待处理文本信息中出现的错误进行纠正,利用业务词典可批量获得替换表达式,减少工作人员的录入量。
由以上技术方案可知,本申请实施例提供的一种文本信息的预处理方法,利用替换文件路径调取替换文件路径对应的替换文件,通过替换文件内的多个替换表达式对待处理文本信息进行匹配和信息替换,可实现将文本信息通过一次预处理过程,就可完成文本信息中多处不同文本内容的替换,并且一个替换表达式即可完成一种文本内容的替换,既避免操作重复,又降低运算量,提高替换效率;而且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可,与现有技术中录入大量的正则表达式相比,降低工作人员的工作量,提高预处理的灵活性。
参见图2,每个所述替换表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述匹配粒度为拆句匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时,上述实施例步骤13包括:
步骤21:将所述待处理文本信息进行断句处理,得到子句集。
该步骤对待处理文本信息进行断句的方法可采用多种方式,其中一种为查找待处理文本信息的断句符,断句符起到断句的作用,包含断句符的文字通常能保留完整的文字含义,这里的“断句符”包括通常语言习惯中使用的各种标点符号,还包括一段文字开始的“段首控制符”和段尾的“段尾控制符”,如回车符,当待处理文本信息(如标题)中未查到例如标点符号等“断句符”时,将以“段首控制符”和“段尾控制符”为断句符。利用断句符将待处理文本信息进行截断,得到子句集。
步骤22:将所述正则表达式与所述子句集内的每个句子逐一进行模式匹配。
模式匹配法是指从文本信息的第一个字符起与正则表达式的第一个字符进行匹配,若相匹配,则继续对字符进行后续的比较,若不匹配,则从文本的第二个字符起与该正则表达式重新比较,直至该正则表达式的每个字符依次与文本中的一个连续的字符序列相等为止,则视为匹配成功,否则匹配失败。
以文本信息“我平时很爱喝可乐,就是美国的那个可乐。”为例,工作人员想将所有关于“可乐”的描述统一为“可口可乐”,并且将“爱喝”替换为“喜欢”,以便后期做数据挖掘的结果更准确。工作人员可通过替换文件的路径调取预先存储好的替换文件,该替换文件至少包括一个用于处理关于“可口可乐”的替换表达式和一个处理关于“喜欢”的替换表达式。替换文件内的替换表达式可由工作人员预先编辑好后,进行存储。再使用相关替换文件时,利用该替换文件的路径调取即可,无需再次进行编辑,降低工作人员的工作量,也同时降低计算机的运算量,提高运算速度。
对于替换表达式的编辑,可由具体的预处理需求进行设置,例如,为了满足上述预处理需求,一个替换表达式为“可.{0.2}.乐/规则表达式/可口可乐/拆句匹配”,另一个替换表达式为“爱.{0,2},喝/规则表达式/喜欢/拆句匹配”。
根据替换表达式中的匹配粒度,将上述文本内容进行拆句处理,得到子句集包括{我平时很爱喝可乐;就是美国的那个可乐},再用利用替换文本中的一个替换表达式的匹配表达式进行模式匹配,假设该替换表达式为“可.{0.2}.乐/规则表达式/可口可乐/拆句匹配”,则利用正则表达式“可.{0.2}.乐”分别与上述的子句集进行模式匹配,发现上述子句集中的“可乐”与其匹配,则保存该词的位置,然后利用替换信息“可口可乐”将其替换,得到“{我平时很爱喝可口可乐;就是美国的那个可口可乐}”;替换之后,获取另一替换表达式对该替换后的子句集完成上述的处理过程。
参见图3,当所述匹配粒度为拆句匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时,上述实施例的步骤13包括:
步骤31:将所述待处理文本信息进行断句处理,得到子句集。
此处的断句过程与步骤21的相同,可参见步骤21的处理过程,不再赘述。
步骤32:将所述关键信息与所述子句集内的每个句子逐一进行字符匹配。
关键信息可以为一个词语或一个短句等文本形式的信息,字符匹配可采用模糊匹配,例如,在假设文本信息中含有词语“纸巾”,而匹配表达式为“抽纸”,则根据模糊匹配原则,确定“纸巾”与“抽纸”匹配成功。
以上两个实施例适用于匹配表达式所匹配的内容范围较小情况,通过断句对文本信息进行处理,可有效避免相连两个字中间隔着标点符号,且没有关联的两个字与匹配表达式相匹配的情况,例如“可,乐”,提高匹配的准确性。
当所述匹配粒度为全信息匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时,上述实施例的步骤13包括:
将所述正则表达式与所述待处理文本信息进行模式匹配。
此处的匹配过程与步骤22的相同,可参见步骤22的处理过程,不再赘述。
当所述匹配粒度为全信息匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时,上述实施例的步骤13包括:
将所述关键信息与所述待处理文本信息进行字符匹配。
此处的匹配过程与步骤32的相同,可参见步骤32的处理过程,不再赘述。
上述实施例适用于匹配表达式所匹配的内容范围较大的文本信息,如法律文件中需要替换发明人信息的段落。由以上实施例可以看出,上述实施例提供的一种文本信息的预处理方法可利用替换表达式中的匹配表达式、匹配表达式类型和匹配粒度的不同设置,满足不同的文本信息预处理需求,增加文本信息预处理的灵活性和准确性。
参见图4,第二方面,本申请提供一种文本信息的预处理方法包括:
步骤41:获取待处理文本信息和所述待处理文本信息对应的筛选文件路径。
待处理文本信息包括获取来自用户生成内容中的文本信息,包括获取来自新闻渠道、微博渠道和论坛渠道的文本信息,将这些渠道中的文本内容作为文本信息。其中,新闻渠道包含新浪、网易、搜狐、腾讯和《今日头条》等;微博渠道包含新浪微博等;论坛渠道包含天涯、百度贴吧、知乎等。对于新闻渠道,用新闻的标题和报道内容作为文本信息;对于论坛渠道,把帖子的文本内容作为文本信息。对于微博渠道,将微博帖子的文本内容作为文本信息,通过如上方法获取的文本,能很好的获得新的文本;也可以包括法律文件等文本信息。
筛选文件路径是筛选文件的绝对路径,绝对路径是指目录下的绝对位置,直接到达目标位置,通常是从盘符开始的路径,即完整的描述文件位置的路径。绝对路径由一系列连续的目录组成,中间用斜线分隔,直到要指定的目录或文件,路径中的最后一个名称即为要指向的目录或文件,例如,C:\windows\system32\cmd.exe。
步骤42:根据所述筛选文件路径,调取所述筛选文件路径对应的筛选文件,其中,所述筛选文件包括多个筛选表达式,每个所述筛选表达式均包括匹配表达式、匹配表达式类型、匹配类型、匹配粒度、操作类型和筛选粒度,所述匹配表达式类型为文本类型或规则表达式类型,所述匹配粒度为全信息匹配或拆句匹配,所述筛选粒度为全文筛选或拆句筛选。
本步骤在实施的过程中,可对筛选文件路径和筛选文本路径对应的筛选文件进行校验,即保证筛选文件路径存在,并且利用筛选文件路径所调取的筛选文件不为空文件。
筛选文件中的筛选表达式为多个,即调取一个筛选文本,即可调取其内含有的多个筛选表达式,可实现多个不同信息的筛选,减少预处理的繁琐性,提高运算速度。
步骤43:根据所述第一筛选表达式的匹配粒度,利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式。
匹配粒度可分为全信息匹配或拆句匹配,匹配表达式可分为关键信息或正则表达式,匹配表达式类型可分为文本类型或规则表达式类型。根据实际的筛选需求,工作人员灵活设置匹配粒度、匹配表达式和匹配表达式类型。
具体的匹配过程与第一方面提供的一种文本信息预处理的方法中的匹配步骤相同,不再赘述。
步骤44:如果匹配失败,则执行步骤49。
如果匹配成功,则执行步骤45-步骤410。
步骤45:根据所述第一筛选表达式的匹配类型和匹配文本信息,确定有效文本信息。
匹配类型分为将匹配文本信息确定为有效信息或将非匹配文本信息确定为有效信息,工作人员可根据筛选需求自行设置。
步骤46:根据所述第一筛选表达式的匹配粒度和有效文本信息,确定目标文本信息。
当匹配粒度为拆句匹配时,则保留子句集中含有有效文本信息的句子。当匹配粒度为全信息匹配时,则保留待处理文本信息的全部文本信息。同样,拆句匹配适用于匹配范围较小的匹配需求,全文信息匹配适用于匹配范围较大的匹配需求。
步骤47:根据所述第一筛选表达式的操作类型和筛选粒度,对所述目标文本信息中的有效文本信息进行筛选,得到筛选信息。
步骤48:判断所述筛选信息的长度是否为零;
如果所述筛选信息的长度大于零,则执行步骤49;
如果所述筛选信息的长度等于零,则执行步骤410。
步骤49:将所述筛选文件中的另一筛选表达式作为第一筛选表达式,执行步骤43,直至遍历所述筛选文件中所有的筛选表达式为止。
步骤410:结束筛选。
如果得到的筛选信息长度等于零,则表示可能筛选表达式设置错误,需结束筛选过程,再由工作人员进行确认,是否出现错误,提高筛选的准确性。
本申请实施例利用筛选文件路径调取对应的筛选文件,通过筛选文件内的多个筛选表达式对待处理文本信息进行匹配和信息筛选,可实现将文本信息通过一次预处理过程,实现文本信息中多处不同文本内容的筛选,并且一个筛选表达式即可完成一种文本内容的筛选,不仅避免操作重复,而且降低运算量,提高筛选效率;并且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可,与现有技术中录入大量的正则表达式相比,降低工作人员的工作量,提高预处理的灵活性。
参见图5,每个所述筛选表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述筛选粒度为拆句筛选时,上述实施例的步骤47包括:
步骤51:将所述目标文本信息进行断句处理,得到子句集。
此处的断句过程与步骤21的相同,可参见步骤21的处理过程,不再赘述。
步骤52:将子句集中的每个句子逐条保留或者去除所述有效文本信息。
当操作类型为去除时,则将子句集中的每个句子逐条去除有效文本信息。当操作类型为保留时,则将子句集中的每个句子逐条保留有效文本信息。
以上两个实施例适用于有效文本信息较少的情况,通过断句对有效信息进行处理,可增加去除或保留有效信息的准确性。
当所述筛选粒度为全文筛选时,上述实施例的步骤47包括:
将所述目标文本信息中保留或去除所述有效文本信息。
同样,当操作类型为去除时,则将子句集中的每个句子逐条去除有效文本信息。当操作类型为保留时,则将子句集中的每个句子逐条保留有效文本信息。
上述实施例适用于有效文本信息较大时,如法律文件中需要保留或去除发明人信息的段落。由以上实施例可以看出,上述实施例提供的一种文本信息的预处理方法可利用筛选表达式中的筛选粒度和筛选的不同设置,满足不同的文本信息筛选需求,增加文本信息预处理的灵活性和准确性。
参见图6,第三方面,本申请实施例提供一种文本信息的预处理装置包括:
获取模块61,用于获取待处理文本信息和所述待处理文本信息对应的替换文件路径;
调取模块,用于根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,每个所述替换表达式均包括匹配表达式、匹配表达式类型、替换信息和匹配粒度,所述匹配表达式类型为文本类型或规则表达式类型,所述匹配粒度为全信息匹配或拆句匹配;
匹配模块62,用于根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一替换表达式为所述替换文件中的任意一个替换表达式;
判断模块63,用于如果匹配成功,则根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息;
循环模块64,用于将所述替换文件中的另一替换表达式作为第一替换表达式,转至所述匹配模块62,直至遍历所述替换文件中所有的替换表达式为止;
其中,生成所述通过业务词典获得的替换表达式的步骤如下:
获取所述待处理文本信息对应的业务词典;
利用所述业务词典中的每个词语,生成对应的正则表达式;
根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。
本申请实施例提供的一种文本信息的预处理装置,利用替换文件路径调取替换文件路径对应的替换文件,通过替换文件内的多个替换表达式对待处理文本信息进行匹配和信息替换,可实现将文本信息通过一次预处理过程,就完成文本信息中多处不同文本内容的替换,并且一个替换表达式即可完成一种文本内容的替换,既避免操作重复,又降低运算量,提高替换效率;而且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可,与现有技术中录入大量的正则表达式相比,降低工作人员的工作量,提高预处理的灵活性。
参见图7,第四方面,本申请提供一种文本信息的预处理装置包括:
获取模块71,用于获取待处理文本信息和所述待处理文本信息对应的筛选文件路径;
调取模块72,用于根据所述筛选文件路径,调取所述筛选文件路径对应的筛选文件,其中,所述筛选文件包括多个筛选表达式,每个所述筛选表达式均包括匹配表达式、匹配类型、匹配粒度、操作类型和筛选粒度,所述匹配粒度为全信息匹配或拆句匹配,所述筛选粒度为全文筛选或拆句筛选;
匹配模块73,用于根据所述第一筛选表达式的匹配粒度,利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式;
如果匹配失败,则转至循环模块77;如果匹配成功,则转至确定模块74;
确定模块74,用于根据所述第一筛选表达式的匹配粒度和有效文本信息,确定目标文本信息;
筛选模块75,用于根据所述第一筛选表达式的操作类型和筛选粒度,对所述目标文本信息中的有效文本信息进行筛选,得到筛选信息;
判断模块76,用于判断所述筛选信息的长度是否为零;如果所述筛选信息的长度等于零,则结束筛选;如果所述筛选信息的长度大于零,则转至循环模块77;
循环模块77,用于所述筛选文件中的另一筛选表达式作为第一筛选表达式,转至匹配模块,直至遍历所述筛选文件中所有的筛选表达式为止。
本申请实施例提供一种文本信息的预处理装置,利用筛选文件路径调取对应的筛选文件,通过筛选文件内的多个筛选表达式对待处理文本信息进行匹配和信息筛选,可实现将文本信息通过一次预处理过程,实现文本信息中多处不同文本内容的的筛选,并且一个筛选表达式即可完成一种文本内容的筛选,不仅避免操作重复,而且降低运算量,提高筛选效率;并且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可,与现有技术中录入大量的正则表达式相比,降低工作人员的工作量,提高预处理的灵活性。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以似的一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分可相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处,尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种文本信息的预处理方法,其特征在于,所述方法包括:
获取待处理文本信息和所述待处理文本信息对应的替换文件路径;
根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度,所述匹配粒度为全信息匹配或拆句匹配;
根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配;如果匹配成功,则根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息,所述第一替换表达式为所述替换文件中的任意一个替换表达式;
将所述替换文件中的另一替换表达式作为第一替换表达式,重复执行所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配的步骤,直至遍历所述替换文件中所有的替换表达式为止;
其中,生成所述通过业务词典获得的替换表达式的步骤如下:
获取所述待处理文本信息对应的业务词典;
利用所述业务词典中的每个词语,生成对应的正则表达式;
根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。
2.如权利要求1所述的方法,其特征在于,每个所述替换表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述匹配粒度为拆句匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时,所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括:
将所述待处理文本信息进行断句处理,得到子句集;
将所述正则表达与所述子句集内的每个句子逐一进行模式匹配。
3.如权利要求1所述的方法,其特征在于,每个所述替换表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述匹配粒度为拆句匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时,所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括:
将所述待处理文本信息进行断句处理,得到子句集;
将所述关键信息与所述子句集内的每个句子逐一进行字符匹配。
4.如权利要求1所述的方法,其特征在于,每个所述替换表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述匹配粒度为全信息匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时,所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括:
将所述正则表达式与所述待处理文本信息进行模式匹配。
5.如权利要求1所述的方法,其特征在于,每个所述替换表达式还包括匹配表达式类型,所述匹配表达式类型为文本类型或规则表达式类型,当所述匹配粒度为全信息匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时,所述根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括:
将所述关键信息与所述待处理文本信息进行字符匹配。
6.一种文本信息的预处理方法,其特征在于,所述方法包括:
步骤S1:获取待处理文本信息和所述待处理文本信息对应的筛选文件路径;
步骤S2:根据所述筛选文件路径,调取所述筛选文件路径对应的筛选文件,其中,所述筛选文件包括多个筛选表达式,每个所述筛选表达式均包括匹配表达式、匹配类型、匹配粒度、操作类型和筛选粒度,所述匹配粒度为全信息匹配或拆句匹配,所述筛选粒度为全文筛选或拆句筛选;
步骤S3:根据所述第一筛选表达式的匹配粒度,利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式;
如果匹配失败,则执行步骤S8;如果匹配成功,则执行步骤S4-S7;
步骤S4:根据所述第一筛选表达式的匹配类型和匹配文本信息,确定有效文本信息;
步骤S5:根据所述第一筛选表达式的匹配粒度和有效文本信息,确定目标文本信息;
步骤S6:根据所述第一筛选表达式的操作类型和筛选粒度,对所述目标文本信息中的有效文本信息进行筛选,得到筛选信息;
步骤S7:判断所述筛选信息的长度是否为零,如果所述筛选信息的长度为零,则结束筛选;如果所述筛选信息的长度大于零,则执行步骤S8;
步骤S8:将所述筛选文件中的另一筛选表达式作为第一筛选表达式,转至步骤S3,直至遍历所述筛选文件中所有的筛选表达式为止。
7.如权利要求6所述的方法,其特征在于,当所述筛选粒度为拆句筛选时,根据所述第一筛选表达式的操作类型和筛选粒度,对所述目标文本信息中的有效文本信息进行筛选包括:
将所述目标文本信息进行断句处理,得到子句集;
将子句集中的每个句子逐条保留或者去除所述有效文本信息。
8.如权利要求6所述的方法,其特征在于,当所述筛选粒度为全文筛选时,根据所述第一筛选表达式的操作类型和筛选粒度,对所述目标文本信息中的有效文本信息进行筛选包括:
将所述目标文本信息中保留或去除所述有效文本信息。
9.一种文本信息的预处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文本信息和所述待处理文本信息对应的替换文件路径;
调取模块,用于根据所述替换文件路径,调取所述替换文件路径对应的替换文件,其中,所述替换文件包括多个替换表达式,所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度,所述匹配表达式类型为文本类型或规则表达式类型,所述匹配粒度为全信息匹配或拆句匹配;
匹配模块,用于根据第一替换表达式的匹配粒度,利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一替换表达式为所述替换文件中的任意一个替换表达式;
判断模块,用于如果匹配成功,则根据匹配文本信息和对应的位置,将所述匹配文本信息替换为所述替换信息;
循环模块,用于将所述替换文件中的另一替换表达式作为第一替换表达式,转至匹配模块,直至遍历所述替换文件中所有的替换表达式为止;
其中,生成所述通过业务词典获得的替换表达式的步骤如下:
获取所述待处理文本信息对应的业务词典;
利用所述业务词典中的每个词语,生成对应的正则表达式;
根据每个所述词语对应的正则表达式,生成所述词语对应的替换表达式,所述词语对应的替换表达式的匹配粒度为全信息匹配,替换信息为所述词语,匹配表达式为所述词语对应的正则表达式。
10.一种文本信息的预处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文本信息和所述待处理文本信息对应的筛选文件路径;
调取模块,用于根据所述筛选文件路径,调取所述筛选文件路径对应的筛选文件,其中,所述筛选文件包括多个筛选表达式,每个所述筛选表达式均包括匹配表达式、匹配类型、匹配粒度、操作类型和筛选粒度,所述匹配粒度为全信息匹配或拆句匹配,所述筛选粒度为全文筛选或拆句筛选;
匹配模块,用于根据所述第一筛选表达式的匹配粒度,利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配,所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式;
如果匹配失败,则转至循环模块;如果匹配成功,则转至确定模块;
确定模块,用于根据所述第一筛选表达式的匹配粒度和有效文本信息,确定目标文本信息;
筛选模块,用于根据所述第一筛选表达式的操作类型和筛选粒度,对所述目标文本信息中的有效文本信息进行筛选,得到筛选信息;
判断模块,用于判断所述筛选信息的长度是否为零;如果所述筛选信息的长度等于零,则结束筛选;如果所述筛选信息的长度大于零,则转至循环模块;
循环模块,用于所述筛选文件中的另一筛选表达式作为第一筛选表达式,转至匹配模块,直至遍历所述筛选文件中所有的筛选表达式为止。
CN201711257607.8A 2017-12-04 2017-12-04 一种文本信息的预处理方法及装置 Active CN107977435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711257607.8A CN107977435B (zh) 2017-12-04 2017-12-04 一种文本信息的预处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711257607.8A CN107977435B (zh) 2017-12-04 2017-12-04 一种文本信息的预处理方法及装置

Publications (2)

Publication Number Publication Date
CN107977435A true CN107977435A (zh) 2018-05-01
CN107977435B CN107977435B (zh) 2020-05-22

Family

ID=62009047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711257607.8A Active CN107977435B (zh) 2017-12-04 2017-12-04 一种文本信息的预处理方法及装置

Country Status (1)

Country Link
CN (1) CN107977435B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959163A (zh) * 2018-06-28 2018-12-07 掌阅科技股份有限公司 有声电子书的字幕显示方法、电子设备及计算机存储介质
CN109388785A (zh) * 2018-09-29 2019-02-26 北京京东金融科技控股有限公司 筛选文本的方法和装置
CN110096432A (zh) * 2019-03-21 2019-08-06 平安普惠企业管理有限公司 测试文本替换方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221294A (ja) * 2005-02-09 2006-08-24 Nec Engineering Ltd Url検索方法及び検索装置
CN102063493A (zh) * 2010-12-30 2011-05-18 北京大学 基于正则表达式组和控制逻辑的内容抽取方法
CN105975475A (zh) * 2016-03-31 2016-09-28 华南理工大学 基于中文短语串的细粒度主题信息抽取方法
CN106095745A (zh) * 2016-05-27 2016-11-09 厦门市美亚柏科信息股份有限公司 基于通讯记录的交易记录提取方法及其系统
CN107229698A (zh) * 2017-05-24 2017-10-03 北京神州泰岳软件股份有限公司 一种信息处理的方法及装置
CN107256227A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 面向知识内容的语义概念扩展生成方法与装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006221294A (ja) * 2005-02-09 2006-08-24 Nec Engineering Ltd Url検索方法及び検索装置
CN102063493A (zh) * 2010-12-30 2011-05-18 北京大学 基于正则表达式组和控制逻辑的内容抽取方法
CN105975475A (zh) * 2016-03-31 2016-09-28 华南理工大学 基于中文短语串的细粒度主题信息抽取方法
CN106095745A (zh) * 2016-05-27 2016-11-09 厦门市美亚柏科信息股份有限公司 基于通讯记录的交易记录提取方法及其系统
CN107256227A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 面向知识内容的语义概念扩展生成方法与装置
CN107229698A (zh) * 2017-05-24 2017-10-03 北京神州泰岳软件股份有限公司 一种信息处理的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959163A (zh) * 2018-06-28 2018-12-07 掌阅科技股份有限公司 有声电子书的字幕显示方法、电子设备及计算机存储介质
CN108959163B (zh) * 2018-06-28 2020-01-21 掌阅科技股份有限公司 有声电子书的字幕显示方法、电子设备及计算机存储介质
CN109388785A (zh) * 2018-09-29 2019-02-26 北京京东金融科技控股有限公司 筛选文本的方法和装置
CN109388785B (zh) * 2018-09-29 2023-09-01 京东科技控股股份有限公司 筛选文本的方法和装置
CN110096432A (zh) * 2019-03-21 2019-08-06 平安普惠企业管理有限公司 测试文本替换方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN107977435B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN106469554B (zh) 一种自适应的识别方法及系统
Belew Finding out about: a cognitive perspective on search engine technology and the WWW
CN108874937B (zh) 一种基于词性结合和特征选择的情感分类方法
WO2019209650A1 (en) Machine learning to identify opinions in documents
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN107609960A (zh) 推荐理由生成方法及装置
CN109426658B (zh) 使用基于文本分析的智能特征建议进行文档美化
CN101526938B (zh) 文档处理装置
CN107977435A (zh) 一种文本信息的预处理方法及装置
CN111797898A (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN111460158B (zh) 一种基于情感分析的微博话题公众情感预测方法
Mashuri Sentiment analysis in twitter using lexicon based and polarity multiplication
CN106997339A (zh) 文本特征提取方法、文本分类方法及装置
Alharbi et al. Identifying comparative opinions in Arabic text in social media using machine learning techniques
CN112364646A (zh) 一种考虑修饰词的句子评论情感极性分析方法
CN105009117A (zh) 在线社交网络中的模糊结构化搜索查询
CN113761114A (zh) 短语生成方法、装置和计算机可读存储介质
CN110990587B (zh) 基于主题模型的企业关系发现方法及系统
Nagra et al. Deep sentiments analysis for roman urdu dataset using faster recurrent convolutional neural network model
US20220148049A1 (en) Method and system for initiating an interface concurrent with generation of a transitory sentiment community
Garouani et al. Sentiment analysis of Moroccan tweets using text mining
CN107315831B (zh) 一种挖掘规则关联模型未知关联关系的方法及装置
CN112905787B (zh) 文本信息处理方法、短信处理方法、电子设备及可读介质
CN110347934A (zh) 一种文本数据过滤方法、装置及介质
Amrie et al. Analysis of Google Play Store's Sentiment Review on Indonesia's P2P Fintech Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190905

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant after: China Science and Technology (Beijing) Co., Ltd.

Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: Beijing Shenzhou Taiyue Software Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Patentee after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Patentee before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CP03 Change of name, title or address