CN108733634A - 参考文献的识别方法及识别装置 - Google Patents

参考文献的识别方法及识别装置 Download PDF

Info

Publication number
CN108733634A
CN108733634A CN201710260557.2A CN201710260557A CN108733634A CN 108733634 A CN108733634 A CN 108733634A CN 201710260557 A CN201710260557 A CN 201710260557A CN 108733634 A CN108733634 A CN 108733634A
Authority
CN
China
Prior art keywords
bibliography
training
marks
model
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710260557.2A
Other languages
English (en)
Inventor
殷延伟
严昌华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201710260557.2A priority Critical patent/CN108733634A/zh
Publication of CN108733634A publication Critical patent/CN108733634A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种参考文献的识别方法及识别装置。其中,一种参考文献的识别方法,包括:创建用于模型训练的训练集;根据训练集,采用stanford‑ner开源库训练参考文献识别模型;根据参考文献识别模型,自动识别参考文献。通过本发明的技术方案,实现了自动识别参考文献,方便、快捷,从而为科技工作者带来了极大的便利,有助于提高工作效率。

Description

参考文献的识别方法及识别装置
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种参考文献的识别方法,还涉及一种参考文献的识别装置。
背景技术
参考文献是对期刊论文引文进行统计和分析的重要信息源之一,是科技论文中的重要组成部分,反映论文作者的科学态度和论文具有真实、广泛的科学依据,也反映出该论文的起点和深度,能方便地把论文作者的成果与他人的成果区别开来,体现自身研究的创新性和创造性,由此参考文献的识别变得十分必要,而目前相关技术对于参考文献的识别大多为手工标注,过程十分繁琐。
因此,如何提供一种参考文献的智能识别方法,成为目前亟待解决的技术问题。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提出了一种参考文献的识别方法。
本发明的另一个目的在于提出了一种参考文献的识别装置。
有鉴于此,本发明提出了一种参考文献的识别方法,包括:创建用于模型训练的训练集;根据训练集,采用stanford-ner开源库训练参考文献识别模型;根据参考文献识别模型,自动识别参考文献。
根据本发明的参考文献的识别方法,通过创建用于模型训练的训练集,为采用stanford-ner开源库训练参考文献识别模型提供了目标数据,在训练过程中,根据训练集不断调整参考文献识别模型的参数,以得到最满意的参考文献识别模型,在得到参考文献识别模型后,后续的文献识别不必手工标注,只需将需要识别的参考文献带入模型即可自动识别,确保参考文献格式的规范性、防止出现遗漏,从而为科技工作者带来了极大的便利,有助于提高工作效率。
另外,根据本发明上述的参考文献的识别方法,还可以具有如下附加的技术特征:
在上述技术方案中,优选地,创建用于模型训练的训练集的具体步骤,包括:对多条参考文献按类别进行手工标注;对标注后的多条参考文献进行数据格式的训练;将数据格式训练完成后的多条参考文献作为训练集。
在该技术方案中,通过对多条参考文献按类别进行手工标注,并对标注后的多条参考文献进行数据格式的训练,从而得到符合需求的训练集,在模型训练过程中,该训练集作为不断调整参考文献识别模型的参数的目标数据,为训练最佳模型提供了依据。
在上述任一技术方案中,优选地,对多条参考文献按类别进行手工标注,具体包括:手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。
在该技术方案中,应用标注符号手工标注参考文献中涉及的各个类别,其中,类别包括姓、名、来源、标题、卷号、刊号、起始终至页码等,标注符号包括F、N、O、SOURCE、TITLE、VOLUME、PUBLICATIONNUM、PAGENUM等。具体的,使用F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。
在上述任一技术方案中,优选地,对标注后的多条参考文献进行数据格式的训练,具体包括:将参考文献中每个单词独立成行,Tab后跟类别的标注符号。
在该技术方案中,通过将参考文献中每个单词独立成行,Tab后跟类别的标注符号的方式,训练每条参考文献的数据格式,使得训练集中的每条数据的格式一致,从而为训练参考文献识别模型,提供可靠、标注的目标数据。
在上述任一技术方案中,优选地,还包括:根据训练集,采用stanford-ner开源库训练参考文献识别模型的具体步骤,包括:设置配置文件,配置文件用于配置参考文献识别模型的参数;按照stanford-ner开源库的程序算法,执行模型训练命令,并根据训练集不断调整参考文献识别模型的参数。
在该技术方案中,通过设置配置文件,配置参考文献识别模型的各个参数,按照stanford-ner开源库的程序算法进行训练,并根据训练集不断调整参考文献识别模型的参数,直到得到最佳训练模型,从而能够智能、精准识别参考文献。
本发明还提出一种参考文献的识别装置,包括:训练集创建单元,用于创建用于模型训练的训练集;模型创建单元,用于根据训练集,采用stanford-ner开源库训练参考文献识别模型;识别单元,根据参考文献识别模型,自动识别参考文献。
根据本发明的参考文献的识别装置,通过创建用于模型训练的训练集,为采用stanford-ner开源库训练参考文献识别模型提供了目标数据,在训练过程中,根据训练集不断调整参考文献识别模型的参数,以得到最满意的参考文献识别模型,在得到参考文献识别模型后,后续的文献识别不必手工标注,只需将需要识别的参考文献带入模型即可自动识别,确保参考文献格式的规范性、防止出现遗漏,从而为科技工作者带来了极大的便利,有助于提高工作效率。
另外,根据本发明上述的参考文献的识别装置,还可以具有如下附加的技术特征:
在上述技术方案中,优选地,训练集创建单元,具体包括:标注单元,用于对多条参考文献按类别进行手工标注;格式训练单元,用于对标注后的多条参考文献进行数据格式的训练;将数据格式训练完成后的多条参考文献作为训练集。
在该技术方案中,通过对多条参考文献按类别进行手工标注,并对标注后的多条参考文献进行数据格式的训练,从而得到符合需求的训练集,在模型训练过程中,该训练集作为不断调整参考文献识别模型的参数的目标数据,为训练最佳模型提供了依据。
在上述任一技术方案中,优选地,标注单元,具体用于:手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。
在该技术方案中,应用标注符号手工标注参考文献中涉及的各个类别,其中,类别包括姓、名、来源、标题、卷号、刊号、起始终至页码等,标注符号包括F、N、O、SOURCE、TITLE、VOLUME、PUBLICATIONNUM、PAGENUM等。具体的,使用F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。
在上述任一技术方案中,优选地,格式训练单元,具体用于:将参考文献中每个单词独立成行,Tab后跟类别的标注符号。
在该技术方案中,通过将参考文献中每个单词独立成行,Tab后跟类别的标注符号的方式,训练每条参考文献的数据格式,使得训练集中的每条数据的格式一致,从而为训练参考文献识别模型,提供可靠、标注的目标数据。
在上述任一技术方案中,优选地,模型创建单元,具体用于:设置配置文件,配置文件用于配置参考文献识别模型的参数;按照stanford-ner开源库的程序算法,执行模型训练命令,并根据训练集不断调整参考文献识别模型的参数。
在该技术方案中,通过设置配置文件,配置参考文献识别模型的各个参数,按照stanford-ner开源库的程序算法进行训练,并根据训练集不断调整参考文献识别模型的参数,直到得到最佳训练模型,从而能够智能、精准识别参考文献。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明的一个实施例的参考文献的识别方法的流程示意图;
图2示出了根据本发明的另一个实施例的参考文献的识别方法的流程示意图;
图3示出了根据本发明的再一个实施例的参考文献的识别方法的流程示意图;
图4示出了根据本发明的又一个实施例的参考文献的识别方法的流程示意图;
图5示出了根据本发明的第五个实施例的参考文献的识别方法的流程示意图;
图6示出了根据本发明的一个实施例的参考文献的识别装置的示意框图;
图7示出了根据本发明的另一个实施例的参考文献的识别装置的示意框图;
图8示出了根据本发明的一个实施例的参考文献的识别结果的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,根据本发明的一个实施例的参考文献的识别方法的流程示意图。其中,该识别方法包括:
步骤102,创建用于模型训练的训练集;
步骤104,根据训练集,采用stanford-ner开源库训练参考文献识别模型;
步骤106,根据参考文献识别模型,自动识别参考文献。
在该实施例中,通过创建用于模型训练的训练集,为采用stanford-ner开源库训练参考文献识别模型提供了目标数据,在训练过程中,根据训练集不断调整参考文献识别模型的参数,以得到最满意的参考文献识别模型,在得到参考文献识别模型后,后续的文献识别不必手工标注,只需将需要识别的参考文献带入模型即可自动识别,确保参考文献格式的规范性、防止出现遗漏,从而为科技工作者带来了极大的便利,有助于提高工作效率。
如图2所示,根据本发明的另一个实施例的参考文献的识别方法的流程示意图。其中,该识别方法包括:
步骤202,对多条参考文献按类别进行手工标注;
步骤204,对标注后的多条参考文献进行数据格式的训练;将数据格式训练完成后的多条参考文献作为训练集;
步骤206,根据训练集,采用stanford-ner开源库训练参考文献识别模型;
步骤208,根据参考文献识别模型,自动识别参考文献。
在该实施例中,通过对多条参考文献按类别进行手工标注,并对标注后的多条参考文献进行数据格式的训练,从而得到符合需求的训练集,在模型训练过程中,该训练集作为不断调整参考文献识别模型的参数的目标数据,为训练最佳模型提供了依据。
如图3所示,根据本发明的再一个实施例的参考文献的识别方法的流程示意图。其中,该识别方法包括:
步骤302,手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码;
步骤304,对标注后的多条参考文献进行数据格式的训练;将数据格式训练完成后的多条参考文献作为训练集;
步骤306,根据训练集,采用stanford-ner开源库训练参考文献识别模型;
步骤308,根据参考文献识别模型,自动识别参考文献。
在该实施例中,应用标注符号手工标注参考文献中涉及的各个类别,其中,类别包括姓、名、来源、标题、卷号、刊号、起始终至页码等,标注符号包括F、N、O、SOURCE、TITLE、VOLUME、PUBLICATIONNUM、PAGENUM等。具体的,使用F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。
如图4所示,根据本发明的又一个实施例的参考文献的识别方法的流程示意图。其中,该识别方法包括:
步骤402,手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码;
步骤404,将参考文献中每个单词独立成行,Tab后跟类别的标注符号;将数据格式训练完成后的多条参考文献作为训练集;
步骤406,根据训练集,采用stanford-ner开源库训练参考文献识别模型;
步骤408,根据参考文献识别模型,自动识别参考文献。
在该实施例中,通过将参考文献中每个单词独立成行,Tab后跟类别的标注符号的方式,训练每条参考文献的数据格式,使得训练集中的每条数据的格式一致,从而为训练参考文献识别模型,提供可靠、标注的目标数据。
如图5所示,根据本发明的第五个实施例的参考文献的识别方法的流程示意图。其中,该识别方法包括:
步骤502,手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码;
步骤504,将参考文献中每个单词独立成行,Tab后跟类别的标注符号;将数据格式训练完成后的多条参考文献作为训练集;
步骤506,设置配置文件,配置文件用于配置参考文献识别模型的参数;
步骤508,按照stanford-ner开源库的程序算法,执行模型训练命令,并根据训练集不断调整参考文献识别模型的参数;
步骤510,根据参考文献识别模型,自动识别参考文献。
在该实施例中,通过设置配置文件,配置参考文献识别模型的各个参数,按照stanford-ner开源库的程序算法进行训练,并根据训练集不断调整参考文献识别模型的参数,直到得到最佳训练模型,从而能够智能、精准识别参考文献。
如图6所示,根据本发明的一个实施例的参考文献的识别装置的示意框图。其中,该识别装置包括:
训练集创建单元602,用于创建用于模型训练的训练集;
模型创建单元604,用于根据训练集,采用stanford-ner开源库训练参考文献识别模型;
识别单元606,根据参考文献识别模型,自动识别参考文献。
在该实施例中,通过创建用于模型训练的训练集,为采用stanford-ner开源库训练参考文献识别模型提供了目标数据,在训练过程中,根据训练集不断调整参考文献识别模型的参数,以得到最满意的参考文献识别模型,在得到参考文献识别模型后,后续的文献识别不必手工标注,只需将需要识别的参考文献带入模型即可自动识别,确保参考文献格式的规范性、防止出现遗漏,从而为科技工作者带来了极大的便利,有助于提高工作效率。
如图7所示,根据本发明的另一个实施例的参考文献的识别装置的示意框图。其中,该识别装置包括:
训练集创建单元702,具体包括:
标注单元7022,用于对多条参考文献按类别进行手工标注;
格式训练单元7024,用于对标注后的多条参考文献进行数据格式的训练;将数据格式训练完成后的多条参考文献作为训练集;
模型创建单元704,用于根据训练集,采用stanford-ner开源库训练参考文献识别模型;
识别单元606,根据参考文献识别模型,自动识别参考文献。
在该实施例中,通过对多条参考文献按类别进行手工标注,并对标注后的多条参考文献进行数据格式的训练,从而得到符合需求的训练集,在模型训练过程中,该训练集作为不断调整参考文献识别模型的参数的目标数据,为训练最佳模型提供了依据。
在上述任一实施例中,优选地,标注单元7022,具体用于:手工标注参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。
在该实施例中,应用标注符号手工标注参考文献中涉及的各个类别,其中,类别包括姓、名、来源、标题、卷号、刊号、起始终至页码等,标注符号包括F、N、O、SOURCE、TITLE、VOLUME、PUBLICATIONNUM、PAGENUM等。具体的,使用F标注姓,N标注名,O表示未标注,SOURCE标注来源,TITLE标注标题,VOLUME标注卷号,PUBLICATIONNUM标注刊号,PAGENUM标注起始终至页码。
在上述任一实施例中,优选地,格式训练单元7024,具体用于:将参考文献中每个单词独立成行,Tab后跟类别的标注符号。
在该实施例中,通过将参考文献中每个单词独立成行,Tab后跟类别的标注符号的方式,训练每条参考文献的数据格式,使得训练集中的每条数据的格式一致,从而为训练参考文献识别模型,提供可靠、标注的目标数据。
在上述任一实施例中,优选地,模型创建单元704,具体用于:设置配置文件,配置文件用于配置参考文献识别模型的参数;按照stanford-ner开源库的程序算法,执行模型训练命令,并根据训练集不断调整参考文献识别模型的参数。
在该实施例中,通过设置配置文件,配置参考文献识别模型的各个参数,按照stanford-ner开源库的程序算法进行训练,并根据训练集不断调整参考文献识别模型的参数,直到得到最佳训练模型,从而能够智能、精准识别参考文献。
具体实施例,参考文献智能识别,实现步骤如下:
1.下载Stanford NER开源库,解压到stanford-ner文件夹。http://nlp.stanford.edu/software/CRF-NER.shtml#Download
2.训练分类器模型
人工标注,如原文:Cao Hequan,Zhang Guangming,Sun Sujie,et al..Statusand development of protection technologyof armored vehicles[J].ActaArmamentarii,2012,33(12):1549-1554.
标注:F表示类别(姓),N表示类别(名),O表示未标注,SOURCE表示类别(来源),TITLE表示类别(标题),VOLUME表示类别(卷号),PUBLICATIONNUM表示类别(刊号),PAGENUM表示类别(起始终至页码)。
训练数据格式如下:
生成训练集testdata.tsv,设置配置文件如austen.prop;其中trainFile=testdata.tsv指定了用于训练的数据,serializeTo=ner-model.ser.gz指定了输出model的名字,其余参数也均有注释说明;将该配置文件austen.prop和训练数据testdata.tsv都放到stanford-ner文件夹中。
cmd中将当前目录切换到stanford-ner文件夹,并执行命令:
java-cp stanford-ner.jar;slf4j-api-1.7.21.jar;slf4j-sim
ple-1.7.21.jar edu.stanford.nlp.ie.crf.CRFClassifier-prop austen.prop
值得注意的是,需要把lib目录下的slf4j-api.jar和slf4j-simple.jar拷贝到stanford-ner目录下。
3.使用分类器模型,自动识别科技论文中的参考文献,识别结果如图8所示。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种参考文献的识别方法,其特征在于,包括:
创建用于模型训练的训练集;
根据所述训练集,采用stanford-ner开源库训练参考文献识别模型;
根据所述参考文献识别模型,自动识别所述参考文献。
2.根据权利要求1所述的参考文献的识别方法,其特征在于,所述创建用于模型训练的训练集的具体步骤,包括:
对多条所述参考文献按类别进行手工标注;
对标注后的多条所述参考文献进行数据格式的训练;
将所述数据格式训练完成后的多条所述参考文献作为所述训练集。
3.根据权利要求2所述的参考文献的识别方法,其特征在于,所述对多条所述参考文献按类别进行手工标注,具体包括:
手工标注所述参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中
F标注所述姓,N标注所述名,O表示未标注,SOURCE标注所述来源,TITLE标注所述标题,VOLUME标注所述卷号,PUBLICATIONNUM标注所述刊号,PAGENUM标注所述起始终至页码。
4.根据权利要求2所述的参考文献的识别方法,其特征在于,所述对标注后的多条所述参考文献进行数据格式的训练,具体包括:
将所述参考文献中每个单词独立成行,Tab后跟所述类别的标注符号。
5.根据权利要求1所述的参考文献的识别方法,其特征在于,所述根据所述训练集,采用stanford-ner开源库训练参考文献识别模型的具体步骤,包括:
设置配置文件,所述配置文件用于配置所述参考文献识别模型的参数;
按照所述stanford-ner开源库的程序算法,执行模型训练命令,并根据所述训练集不断调整所述参考文献识别模型的参数。
6.一种参考文献的识别装置,其特征在于,包括:
训练集创建单元,用于创建用于模型训练的训练集;
模型创建单元,用于根据所述训练集,采用stanford-ner开源库训练参考文献识别模型;
识别单元,根据所述参考文献识别模型,自动识别所述参考文献。
7.根据权利要求6所述的参考文献的识别装置,其特征在于,所述训练集创建单元,具体包括:
标注单元,用于对多条所述参考文献按类别进行手工标注;
格式训练单元,用于对标注后的多条所述参考文献进行数据格式的训练;将所述数据格式训练完成后的多条所述参考文献作为所述训练集。
8.根据权利要求7所述的参考文献的识别装置,其特征在于,所述标注单元,具体用于:
手工标注所述参考文献中的姓、名、来源、标题、卷号、刊号、起始终至页码,其中
F标注所述姓,N标注所述名,O表示未标注,SOURCE标注所述来源,TITLE标注所述标题,VOLUME标注所述卷号,PUBLICATIONNUM标注所述刊号,PAGENUM标注所述起始终至页码。
9.根据权利要求7所述的参考文献的识别装置,其特征在于,所述格式训练单元,具体用于:
将所述参考文献中每个单词独立成行,Tab后跟所述类别的标注符号。
10.根据权利要求6所述的参考文献的识别装置,其特征在于,所述模型创建单元,具体用于:
设置配置文件,所述配置文件用于配置所述参考文献识别模型的参数;
按照所述stanford-ner开源库的程序算法,执行模型训练命令,并根据所述训练集不断调整所述参考文献识别模型的参数。
CN201710260557.2A 2017-04-20 2017-04-20 参考文献的识别方法及识别装置 Pending CN108733634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710260557.2A CN108733634A (zh) 2017-04-20 2017-04-20 参考文献的识别方法及识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710260557.2A CN108733634A (zh) 2017-04-20 2017-04-20 参考文献的识别方法及识别装置

Publications (1)

Publication Number Publication Date
CN108733634A true CN108733634A (zh) 2018-11-02

Family

ID=63933345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710260557.2A Pending CN108733634A (zh) 2017-04-20 2017-04-20 参考文献的识别方法及识别装置

Country Status (1)

Country Link
CN (1) CN108733634A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109688395A (zh) * 2018-12-29 2019-04-26 北京中科寒武纪科技有限公司 运算方法、装置及相关产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5347878B2 (ja) * 2009-09-29 2013-11-20 富士通株式会社 文献間関係解析装置、該プログラム、及び該方法
CN103885934A (zh) * 2014-02-19 2014-06-25 中国专利信息中心 一种专利文献关键短语自动提取方法
CN105095400A (zh) * 2015-07-07 2015-11-25 清华大学 个人主页的查找方法
CN105824791A (zh) * 2016-03-17 2016-08-03 北京信息科技大学 一种参考文献格式检查方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5347878B2 (ja) * 2009-09-29 2013-11-20 富士通株式会社 文献間関係解析装置、該プログラム、及び該方法
CN103885934A (zh) * 2014-02-19 2014-06-25 中国专利信息中心 一种专利文献关键短语自动提取方法
CN105095400A (zh) * 2015-07-07 2015-11-25 清华大学 个人主页的查找方法
CN105824791A (zh) * 2016-03-17 2016-08-03 北京信息科技大学 一种参考文献格式检查方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109688395A (zh) * 2018-12-29 2019-04-26 北京中科寒武纪科技有限公司 运算方法、装置及相关产品

Similar Documents

Publication Publication Date Title
US8601361B2 (en) Automatically populating and/or generating tables using data extracted from files
WO2007120774A3 (en) Method, apparatus and computer-readabele medium to provide customized classification of documents in a file management system
CN103631763B (zh) 多人协作的大型文档编辑装置和大型文档编辑方法
CN108717452A (zh) 对下载文件识别、保存以及快速查找的方法及装置
AU2002361143A1 (en) Security paper and method and device for producing the same
CN104915356B (zh) 一种文本分类校正方法及装置
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN107343223A (zh) 视频片段的识别方法和装置
WO2005055001A3 (en) Method for assisting in automated conversion of data and associated metadata
CN103500216B (zh) 一种文件信息的提取方法
CN107665188B (zh) 一种语义理解方法及装置
CN104376108B (zh) 一种基于6w语义标识的非结构化自然语言信息抽取方法
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN109308319A (zh) 文本分类方法、文本分类装置和计算机可读存储介质
CN110188077A (zh) 一种电子卷宗智能分类方法、装置、电子设备和存储介质
CN108733634A (zh) 参考文献的识别方法及识别装置
CN106997339A (zh) 文本特征提取方法、文本分类方法及装置
CN111476034A (zh) 基于规则和模型结合的法律文书信息抽取方法及系统
CN109522415A (zh) 一种语料标注方法及装置
CN107451433B (zh) 一种基于文本内容的信息源识别方法与装置
CN109558381A (zh) 一种数据处理方法及装置
CN107679567B (zh) 一种代码抄写行为识别方法、装置和系统
CN108415938A (zh) 一种基于智能模式识别的数据自动标注的方法及系统
CN107066474A (zh) 文献搜索方法和装置
CN110413856A (zh) 分类标注方法、装置、可读存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181102