CN113011183B - 一种电力调控领域非结构化文本数据处理方法及系统 - Google Patents

一种电力调控领域非结构化文本数据处理方法及系统 Download PDF

Info

Publication number
CN113011183B
CN113011183B CN202110310299.0A CN202110310299A CN113011183B CN 113011183 B CN113011183 B CN 113011183B CN 202110310299 A CN202110310299 A CN 202110310299A CN 113011183 B CN113011183 B CN 113011183B
Authority
CN
China
Prior art keywords
dictionary
word
field
word segmentation
electric power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110310299.0A
Other languages
English (en)
Other versions
CN113011183A (zh
Inventor
刘慧勇
肖林朋
陈默
武毅
殷智
曹宇
武江
刘圣楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kedong Electric Power Control System Co Ltd
Original Assignee
Beijing Kedong Electric Power Control System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kedong Electric Power Control System Co Ltd filed Critical Beijing Kedong Electric Power Control System Co Ltd
Priority to CN202110310299.0A priority Critical patent/CN113011183B/zh
Publication of CN113011183A publication Critical patent/CN113011183A/zh
Application granted granted Critical
Publication of CN113011183B publication Critical patent/CN113011183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Water Supply & Treatment (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种电力调控领域非结构化文本数据处理方法,包括:构建电力领域词典;根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;通过CRF模型根据电力领域词典对分词后的词进行词性标注,本发明帮助实现电力领域非结构化文本(比如调度日志、技术文档等)的自动结构化,从中提取电网故障、缺陷、运行、气象环境等信息,辅助电网运行控制数据快速、精确、便捷的检索查询,为进一步挖掘和应用数据、提升电网运行水平提供可靠的技术支撑。

Description

一种电力调控领域非结构化文本数据处理方法及系统
技术领域
本发明属于电力系统自动化技术领域,尤其涉及一种电力调控领域非结构化文本数据处理方法及系统。
背景技术
近些年来,我国经济发展迅速,用电量大幅度增长。与此同时,电力网络规模逐步扩大,复杂程度越来越高,电网调度操作更加频繁,调度数据量也快速的增长。为了适应电网的快速发展,电力企业需要不断提高其电网调度管理水平。
由于历史原因,部分调度运行数据以文本的形式进行记录和存储。由于此类文本是分析和挖掘电网运行的重要数据来源,需要通过对这些文本数据进行分析挖掘和结构化处理,从而对查询检索,统计分析,以及新能源合理调度消纳、故障关联分析等工作提供支撑,然而,目前并无很好的方法对此类非结构化文本进行处理。
发明内容
为了解决现有技术存在的问题,本发明提供一种电力调控领域非结构化文本数据处理方法,能够更准确的对电力领域非结构化文本进行分词。
本发明所要解决的技术问题是通过以下技术方案实现的:
第一方面,提供了一种电力调控领域非结构化文本数据处理方法,包括:
构建电力领域词典;
根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;
通过CRF模型根据电力领域词典对分词后的词进行词性标注。
结合第一方面,进一步的,所述构建电力领域词典包括为:在通用词库基础上增加电力系统专业术语,并对词库中的单词进行词性和词频标注。
结合第一方面,进一步的,所述构建电力领域词典还包括通过TextRank算法从调度规程、稳定限额规程、技术标准和技术规范中提取关键词分类存储到电力领域词典中。
结合第一方面,进一步的,对所需处理的电力调控领域非结构化文本采用DoubleArrayTrie实现最长匹配分词。
结合第一方面,进一步的,所述最长匹配分词具体为:
假设词表中最长的词由m个字组成,每次进行切分时总是从待切分的句子中截取一个长度为m的匹配字段w,查找分词词典,若其在词典中,则匹配成功,匹配字段w作为一个新词被切分出来,若其不在词典中,则匹配失败,从w中去掉最后一个字进行新的匹配,直到匹配成功为止;每完成一次匹配就将匹配成功的单词从句子中去掉,按照前述方法重复进行切分,直至切分完所有的词为止。
第二方面,提供了一种电力调控领域非结构化文本数据处理系统,其特征在于:
词典构建模块:用于构建电力领域词典;
分词模块:用于根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;
词性标注模块:用于通过CRF模型根据电力领域词典对分词后的词进行词性标注。
本发明有益效果:本发明通过电力领域词典定义、DoubleArrayTrie最长匹配分词、CRF结合自定义词典进行词性标注、CRF结合词性标注进行命名实体识别模块。电力领域词典定义、DoubleArrayTrie最长匹配分词算法为基础模块,主要提取电网领域特殊词汇,包括:场站名称、线路名称、设备动作等,实现调度人员搜索词语和电网数据内容的精准分词。CRF词性标注算法实现基于机器学习的文本词性标注,结合自定义词库对标注结果进行纠正,从而活的适用于电力领域的词性标注序列。命名实体识别对词性标注序列进行进一步的合并优化,准确识别出电力领域专用实体。
附图说明
图1为本发明的流程图;
图2为电网调度日志结构化应用效果图。
具体实施方式
为了进一步描述本发明的技术特点和效果,以下结合附图和具体实施方式对本发明做进一步描述。
实施例1
如图1-2所示,本发明公开了提供了一种电力调控领域非结构化文本数据处理方法,包括如下步骤:
步骤一、构建电力领域词典。
在通用词库的基础上扩充电力系统专业术语,如“黄金埠电厂”、“宾金直流”、“励磁涌流”、“断路器”、“自动化”等,添加词性标签和词频(通过对历史语料库进行遍历获得)。另外,从调度规程、稳定限额规程、技术标准、规范等非结构化文件中,利用TextRank算法提取关键词,分类存储到对应的字典表中。
步骤二、根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词。
由于电力领域词汇的专用性和特殊性,采用基于传统机器学习和深度学习的模型会导致专有词汇识别不准,这将导致后续词性标注及实体识别的准确率下降,因此,此处采用基于词典的分词算法。选择DoubleArrayTrie可以高效实现最长匹配分词,既能满足专有词汇识别的准确性,又具备“高吞吐量”的特点,实现快速分词。
最长匹配分词算法的基本思想是:假设词表(一句话中分完词后的词语列表)中最长的词由m个字(程序中m=5)组成,每次进行切分时总是从待切分的句子中截取一个长度为m的匹配字段w,查找分词词典。
1)若在词典中,则匹配成功。匹配字段w作为一个新词被切分出来。
2)若不在词典中,则匹配失败,从w中去掉最后一个字,进行新的匹配。如此进行下去,直到匹配成功为止。
3)如果完成一次匹配就将匹配成功的单词从句子中去掉,按照上述步骤重复进行切分,直至切分完所有的词为止。
假设一长度为m的字符串,DoubleArrayTrie(简称DAT)这种基于Trie树的数据结构最多m次匹配即可完成一次查找,保证了检索速度,提高了空间利用率。它本质是一个确定的有限状态自动机(DFA),每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移的时候,完成查询。
步骤三、通过CRF模型根据电力领域词典对分词后的词进行词性标注。
CRF(Conditional Random Field)条件随机场模型是一种典型的判别式模型,它在观测序列的基础上对目标序列进行建模,重点解决“序列化标注问题”,就是给定的输出识别序列Y和观测序列X,通过定义条件概率P(Y|X)来描述模型。
具体过程如下:
1)从电网生产环境收集部分文档素材并进行人工词性标注,将标注好的素材与人民日报2014语料库进行合并。
2)以当前位置的前后2个位置范围内的子串及其标记作为观察窗口,得到相应的特征函数,进行CRF模型训练。
3)使用Viterbi算法实现最优路径(概率最大标注)的求解,得到最终标注序列。
4)词性标注会隐含进行文本分词,存在分词错误的可能性,因此,需要使用上步分词结果对标注序列进行修正,一方面修正对电力词汇的错误分词,另一方面使用自定义词典中的词性修正CRF词性标注的结果。
(4)CRF结合词性标注实现实体识别
此模块的目标是对命名实体标注为同一个实体的相邻的、多个单词进行合并,构成复合词。比如,前步词性标注的结果是[房山/nst,电厂/n],而实体识别则是[房/n-s,山/n-m,电/n-m,厂/n-e],那么可以根据实体识别的结果将“房山电厂”合并成一个词。
实施例2
提供了一种电力调控领域非结构化文本数据处理系统,其特征在于:
词典构建模块:用于构建电力领域词典;
分词模块:用于根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;
词性标注模块:用于通过CRF模型根据电力领域词典对分词后的词进行词性标注。
本发明帮助实现电力领域非结构化文本(比如调度日志、技术文档等)的自动结构化,从中提取电网故障、缺陷、运行、气象环境等信息,辅助电网运行控制数据快速、精确、便捷的检索查询,为进一步挖掘和应用数据、提升电网运行水平提供可靠的技术支撑。
上述实施例不以任何形式限定本发明,凡采取等同替换或等效变换的形式所获得的技术方案,均落在本发明的保护范围之内。

Claims (4)

1.一种电力调控领域非结构化文本数据处理方法,其特征在于,包括:
构建电力领域词典,包括通过TextRank算法从调度规程、稳定限额规程、技术标准和技术规范中提取关键词分类存储到电力领域词典中;
根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;
对所需处理的电力调控领域非结构化文本采用DoubleArrayTrie实现最长匹配分词;
通过CRF模型根据电力领域词典对分词后的词进行词性标注,具体包括:
1)对电网生产环境的文档进行人工词性标注得到标注文档素材,并将标注好的文档素材和语料库进行合并;
2)以当前位置的前后2个位置范围内的字串及其标记作为观察窗口得到相应的特征函数,根据特征函数及标准文档对CRF模型进行训练;
3)通过CRF对分词后的词进行词性标注,使用Viterbi算法实现最优路径的求解,得到最终标注序列;
4)通过电力领域词典对标注序列进行修正, 一方面修正对电力词汇的错误分词,另一方面使用自定义词典中的词性修正CRF词性标注的结果;
结合修正后的词性标注对实体进行识别,包括对命名实体标注为同一个实体的相邻的、多个单词进行合并,构成复合词。
2.根据权利要求1所述的一种电力调控领域非结构化文本数据处理方法,其特征在于,
所述构建电力领域词典包括为:在通用词库基础上增加电力系统专业术语,并对词库中的单词进行词性和词频标注。
3.根据权利要求1所述的一种电力调控领域非结构化文本数据处理方法,其特征在于:所述最长匹配分词具体为:
假设词表中最长的词由m个字组成,每次进行切分时总是从待切分的句子中截取一个长度为m的匹配字段w,查找分词词典,若其在词典中,则匹配成功,匹配字段w作为一个新词被切分出来,若其不在词典中,则匹配失败,从w中去掉最后一个字进行新的匹配,直到匹配成功为止;每完成一次匹配就将匹配成功的单词从句子中去掉,按照前述方法重复进行切分,直至切分完所有的词为止。
4.一种电力调控领域非结构化文本数据处理系统,其特征在于:包括:
词典构建模块:用于构建电力领域词典,包括通过TextRank算法从调度规程、稳定限额规程、技术标准和技术规范中提取关键词分类存储到电力领域词典中;
分词模块:用于根据构建的电力领域词典对所需处理的电力调控领域非结构化文本进行分词;对所需处理的电力调控领域非结构化文本采用DoubleArrayTrie实现最长匹配分词;
词性标注模块:用于通过CRF模型根据电力领域词典对分词后的词进行词性标注,具体包括:
1)对电网生产环境的文档进行人工词性标注得到标注文档素材,并将标注好的文档素材和语料库进行合并;
2)以当前位置的前后2个位置范围内的字串及其标记作为观察窗口得到相应的特征函数,根据特征函数及标准文档对CRF模型进行训练;
3)通过CRF对分词后的词进行词性标注,使用Viterbi算法实现最优路径的求解,得到最终标注序列;
4)通过电力领域词典对标注序列进行修正,一方面修正对电力词汇的错误分词,另一方面使用自定义词典中的词性修正CRF词性标注的结果;
实体识别模块,用于结合修正后的词性标注对实体进行识别,包括对命名实体标注为同一个实体的相邻的、多个单词进行合并,构成复合词。
CN202110310299.0A 2021-03-23 2021-03-23 一种电力调控领域非结构化文本数据处理方法及系统 Active CN113011183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110310299.0A CN113011183B (zh) 2021-03-23 2021-03-23 一种电力调控领域非结构化文本数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110310299.0A CN113011183B (zh) 2021-03-23 2021-03-23 一种电力调控领域非结构化文本数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN113011183A CN113011183A (zh) 2021-06-22
CN113011183B true CN113011183B (zh) 2023-09-05

Family

ID=76405648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110310299.0A Active CN113011183B (zh) 2021-03-23 2021-03-23 一种电力调控领域非结构化文本数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN113011183B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
CN109284352A (zh) * 2018-09-30 2019-01-29 哈尔滨工业大学 一种基于倒排索引的评估类文档不定长词句的查询方法
CN109582764A (zh) * 2018-11-09 2019-04-05 华南师范大学 基于依存句法的交互注意力情感分析方法
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN111914539A (zh) * 2020-07-31 2020-11-10 长江航道测量中心 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统
CN111950283A (zh) * 2020-07-31 2020-11-17 合肥工业大学 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN112101007A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种从非结构化文本数据中提取结构化数据的方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182423A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于条件随机场的中文人名自动识别方法
CN106383853A (zh) * 2016-08-30 2017-02-08 刘勇 一种电子病历后结构化以及辅助诊断的实现方法及其系统
WO2019200806A1 (zh) * 2018-04-20 2019-10-24 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109284352A (zh) * 2018-09-30 2019-01-29 哈尔滨工业大学 一种基于倒排索引的评估类文档不定长词句的查询方法
CN109582764A (zh) * 2018-11-09 2019-04-05 华南师范大学 基于依存句法的交互注意力情感分析方法
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN111914539A (zh) * 2020-07-31 2020-11-10 长江航道测量中心 一种基于BiLSTM-CRF模型的航道通告信息提取方法及系统
CN111950283A (zh) * 2020-07-31 2020-11-17 合肥工业大学 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN112101007A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种从非结构化文本数据中提取结构化数据的方法及系统

Also Published As

Publication number Publication date
CN113011183A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN111414479B (zh) 基于短文本聚类技术的标签抽取方法
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
CN107145584B (zh) 一种基于n-gram模型的简历解析方法
CN110888849A (zh) 一种在线日志解析方法、系统及其电子终端设备
CN111709235A (zh) 一种基于自然语言处理的文本数据统计分析系统及方法
CN112905804B (zh) 一种电网调度知识图谱的动态更新方法及装置
CN111274817A (zh) 一种基于自然语言处理技术的智能化软件成本度量方法
CN110580308A (zh) 信息审核方法及装置、电子设备、存储介质
CN114860942B (zh) 文本意图分类方法、装置、设备及存储介质
CN111860981A (zh) 一种基于lstm深度学习的企业国民行业类别预测方法及系统
CN111125124A (zh) 一种基于大数据平台的语料标注的方法及装置
CN113971398A (zh) 一种面向网络安全领域实体快速识别的词典构造方法
CN109977370B (zh) 一种基于文档结构树的问答对自动构建方法
CN114896369A (zh) 基于增量学习优化的故障录波文件通道名称识别方法
CN109446522B (zh) 一种试题自动分类系统及方法
CN113011183B (zh) 一种电力调控领域非结构化文本数据处理方法及系统
CN112182019B (zh) 一种电网统计专业指标特征提取的语义解析搜索方法
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN112417996A (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
CN112036179A (zh) 基于文本分类与语义框架的电力预案信息抽取方法
CN116166768A (zh) 一种基于规则的文本知识抽取方法及系统
CN115618883A (zh) 一种业务语义识别方法及装置
CN112800219B (zh) 客服日志反馈回流数据库的方法及系统
CN112488593A (zh) 一种用于招标的辅助评标系统及方法
CN110851679A (zh) 一种基于正文节点特征的提取网页正文的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant