CN108363767A - 文件录入方法、装置、计算机设备和可读存储介质 - Google Patents

文件录入方法、装置、计算机设备和可读存储介质 Download PDF

Info

Publication number
CN108363767A
CN108363767A CN201810120659.9A CN201810120659A CN108363767A CN 108363767 A CN108363767 A CN 108363767A CN 201810120659 A CN201810120659 A CN 201810120659A CN 108363767 A CN108363767 A CN 108363767A
Authority
CN
China
Prior art keywords
file
word
sentence
matching degree
comparing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810120659.9A
Other languages
English (en)
Inventor
汪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE ICT Technologies Co Ltd
Original Assignee
ZTE ICT Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE ICT Technologies Co Ltd filed Critical ZTE ICT Technologies Co Ltd
Priority to CN201810120659.9A priority Critical patent/CN108363767A/zh
Publication of CN108363767A publication Critical patent/CN108363767A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文件录入方法、装置、计算机设备和可读存储介质,其中,文件录入方法,包括:根据获取到的第一文件的关键词检索并提取至少一个第二文件;比对第一文件的词语和第二文件的词语,以确定第一文件和第二文件之间的匹配度;根据匹配度,确定是否录入第一文件。通过本发明的技术方案,将待录入的第一文件与数据库中已有的第二文件进行匹配,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。

Description

文件录入方法、装置、计算机设备和可读存储介质
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种文件录入方法、一种文件录入装置、一种计算机设备和一种计算机可读存储介质。
背景技术
随着移动互联网的兴起,以及教育信息化的加速,在线作业在中小学中逐渐成为一种潮流。
相关技术中,通过在后台将文件导入题库,提高题库的应用广泛性,然而,随着题库内文件的大量导入,会产生相同或类似题录入到题库中,不但降低了题库的资源利用率,且用户体验感较差,不利于中小学生的学习提高。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提供一种文件录入方法。
本发明的另一个目的在于提供一种文件录入装置。
本发明的再一个目的在于提供一种计算机设备。
本发明的又一个目的在于提供一种计算机可读存储介质。
为了实现上述目的,本发明的第一方面的技术方案提供了一种文件录入方法,包括:根据获取到的第一文件的关键词检索并提取至少一个第二文件;比对第一文件的词语和第二文件的词语,以确定第一文件和第二文件之间的匹配度;根据匹配度,确定是否录入第一文件。
在该技术方案中,通过根据获取到的第一文件的关键词检索并提取至少一个第二文件,实现了将数据库中的已取的相关文件的提取,提高了比对的效率,通过比对第一文件的词语和第二文件的词语,来确定第一文件和第二文件之间的匹配度,匹配度的确定准确性较高,通过根据匹配度,确定是否录入第一文件,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。
值得特别指出的是,本发明基于一个基本假设,在比对确定文件的匹配度时,只考虑文件中的文字内容而忽略非文字内容,在第一文件是已经通过文件扫描仪、光学文字辨识机或网页应用界面等转换的计算机可读格式,在对第一文件进行拆分操作或者关键词提取之前,先对第一文件进行纯文字抽取,本发明中的文件均是指进行纯文字抽取后的文件。
在上述技术方案中,优选地,在根据获取到的第一文件的关键词检索并提取至少一个第二文件之前,还包括:根据预设拆分规则,对第一文件的内容进行拆分操作,以生成第一文件的词语;根据预设关键词提取规则,提取第一文件的词语中的至少一个作为关键词。
在该技术方案中,通过根据预设拆分规则,对第一文件的内容进行拆分操作,以生成第一文件的词语,有利于确定第一文件和第二文件之间的匹配度,通过根据预设关键词提取规则,提取第一文件的词语中的至少一个作为关键词,关键词的确定较准确,有利于检索提取出所有与第一文件相关的第二文件,进一步减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。
在上述任一项技术方案中,优选地,在比对第一文件的词语和第二文件的词语以确定第一文件和第二文件之间的匹配度之前,还包括:
根据预设拆分规则,对第二文件的内容进行拆分操作,以生成第二文件的词语。
在该技术方案中,通过预设拆分规则对第二文件的内容进行拆分操作,生成第二文件的词语,使得第一文件和第二文件的比对的是同一个级别的基本单元,有利于确定第一文件和第二文件之间的匹配度。
在上述任一项技术方案中,优选地,拆分操作,具体包括:根据段落分隔标记符拆分文件,生成段落集合;根据句子分隔标记符拆分段落集合中的每个段落,生成句子集合;根据正向迭代最细粒度切分算法拆分句子集合中的每个句子,每个句子生成至少两组词语集合;根据贪心算法比较至少两组词语集合的属性特征,确定每个句子的词语,其中,属性特征包括有效文本长度、词语个数、路径跨度、平均词语长度值、每个词语的位置中的至少一个。
在该技术方案中,拆分操作是通过预设拆分规则实现的,先根据段落分隔标记符拆分文件,生成段落集合,然后根据句子分隔标记符拆分段落集合中的每个段落,生成句子集合,再根据正向迭代最细粒度切分算法拆分句子集合中的每个句子,每个句子生成至少两组词语集合,最后根据贪心算法比较至少两组词语集合的属性特征,确定每个句子的词语,实现了将整个文件的内容拆分为词语,且拆分出来的词语的歧义率较低,提高了比对的有效性,进而提高了匹配度确定的准确性,减少了将相同或类似的文件录入到数据库中的可能性,也减少了将不同的文件漏掉的可能性。
比如,文件拆分成段落多以两个连续回车键、句号紧接回车键、问号紧接回车键或感叹号紧接回车键等作为识别。
再比如,段落拆分成句子多以句号、问号和感叹号及紧随上述符号的下引号等作为识别。
而句子拆分成词语,在英文中,可以通过空格及标点符号作为识别。但在中文中,需要通过较复杂的拆分算法来实现,本发明是通过正向迭代最细粒度切分算法来实现的。
具体地,程序会逐字识别词元,设输入“中华人民共和国“并且“中“单个字也是字典里的一个词,那么过程是这样的:“中“是词元也是前缀(因为有各种中开头的词),加入词元“中“;继续下一个词“华”,由于中是前缀,那么可以识别出“中”同时“中华”也是前缀因此加入“中华”词元,并把其作为前缀继续;接下来继续发现“华人”是词元,“中华人”是前缀,以此类推……。这样会拆分出几组词语集合。
通过贪心算法来根据词语的属性特征比较,确定每个句子的较优的词语,有利于减少拆分出来的词语的歧义率较低,提高了比对的有效性,进而提高了匹配度确定的准确性,减少了将相同或类似的文件录入到数据库中的可能性,也减少了将不同的文件漏掉的可能性。
需要说明的是,贪心算法,在对问题求解时,按照贪心策略,做出当前看来是最好的选择,也就是从问题的某一个初始解出发,按照贪心策略一步一步地进行,每一步都确保能获得局部最优解,进而确定拆分出最优的每个句子的词语。
具体地,比较至少两组词语集合的属性特征的原则顺序,也即贪心策略是有效文本长度越长越好、词语个数越少越好、路径跨度越大越好、平均词语长度值越平均越好、每个词语的位置越靠后越好。
在上述任一项技术方案中,优选地,比对第一文件的词语和第二文件的词语,以确定第一文件和第二文件之间的匹配度,具体包括:比对第一文件的词语和第二文件的词语,以确定匹配句子;统计第一文件中匹配句子的个数和第一文件中句子的总个数;确定第一文件中匹配句子的个数和第一文件中句子的总个数的比值为第一文件和第二文件之间的匹配度。
在该技术方案中,通过比对第一文件的词语和第二文件的词语,确定匹配句子,通过统计第一文件中匹配句子的个数和第一文件中句子的总个数,并把第一文件中匹配句子的个数和第一文件中句子的总个数的比值确定为第一文件和第二文件之间的匹配度,以句子作为计算文件匹配度的基本单元,也就是说第一文件中含有的匹配句子越多,匹配度就越高,实现了第一文件和第二文件之间的匹配度的确定。
在上述任一项技术方案中,优选地,比对第一文件的词语和第二文件的词语,以确定匹配句子,包括:当确定两个句子包含的词语完全相同时,确定两个句子为匹配句子。
在该技术方案中,通过直接比对,也就是两个句子包含的词语完全相同时,就确定为匹配句子,匹配句子确定的准确性高。
在上述任一项技术方案中,优选地,比对第一文件的词语和第二文件的词语,以确定匹配句子,还包括:当确定两个句子包含的相同的词语的个数与两个句子中的一个包含的词语的总个数的比值大于预设阈值时,确定两个句子为匹配句子。
在该技术方案中,通过部分比对,也就是在确定两个句子相同的词语个数的比值超过了预设阈值时,就确定为匹配句子,这个比例计算的分母一般选择较小的那个,比如句子A中有5个词语,句子B中有8个词语,句子A和句子B的相同的词语为4个,则这个比值为4/5,如果预设阈值设为0.75,则可以确定句子A和句子B为匹配句子。
在上述任一项技术方案中,优选地,根据匹配度,确定是否录入第一文件,具体包括:判断匹配度是否大于预设匹配度阈值;若判定匹配度大于预设匹配度阈值,则确定不录入第一文件;若判定匹配度不大于预设匹配度阈值,则确定录入第一文件。
在该技术方案中,通过匹配度与预设匹配度阈值的对比,来确定是否录入第一文件,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验,预设匹配度阈值可以设为0.75,也就是匹配度大于0.75的第一文件将不被录入数据库中。
在上述任一项技术方案中,优选地,预设关键词提取规则为TF-IDF关键词提取算法。
在该技术方案中,把TF-IDF关键词提取算法作为预设关键词提取规则,提高了关键词提取的效率和准确率。
具体地,TF-IDF关键词提取算法,是指先遍历第一文件中的词语,计算每个词语的词频,也就是用某个词语在第一文件中出现的次数除以第一文件中词语的总个数,或者用某个词语在第一文件中出现的次数除以第一文件中出现次数最多的词语的出现次数。然后,计算每个词语的逆文档频率,也就是用数据库中的文件总数除以包含该词语的文件数与1的和,确定一个比值,然后确定这个比值的对数值,就是这个词语的逆文档频率。最后,将词频与逆文档频率相乘即是每个词语的TF-TDF值,将TF-TDF值,降序排列,对应在最前面的几个词语,即关键词。
需要说明的是,TF-IDF,即term frequency-inverse document frequency,即词频-逆文档频率,而TF-TDF值即为词频与逆文档频率相乘。
本发明第二方面的技术方案提供了一种文件录入装置,包括:检索单元,用于根据获取到的第一文件的关键词检索并提取至少一个第二文件;比对单元,用于比对第一文件的词语和第二文件的词语,以确定第一文件和第二文件之间的匹配度;确定单元,用于根据匹配度,确定是否录入第一文件。
在该技术方案中,通过根据获取到的第一文件的关键词检索并提取至少一个第二文件,实现了将数据库中的已取的相关文件的提取,提高了比对的效率,通过比对第一文件的词语和第二文件的词语,来确定第一文件和第二文件之间的匹配度,匹配度的确定准确性较高,通过根据匹配度,确定是否录入第一文件,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。
值得特别指出的是,本发明基于一个基本假设,在比对确定文件的匹配度时,只考虑文件中的文字内容而忽略非文字内容,在第一文件是已经通过文件扫描仪、光学文字辨识机或网页应用界面等转换的计算机可读格式,在对第一文件进行拆分操作或者关键词提取之前,先对第一文件进行纯文字抽取,本发明中的文件均是指进行纯文字抽取后的文件。
在上述技术方案中,优选地,还包括:拆分单元,用于根据预设拆分规则,对第一文件的内容进行拆分操作,以生成第一文件的词语;提取单元,用于根据预设关键词提取规则,提取第一文件的词语中的至少一个作为关键词。
在该技术方案中,通过根据预设拆分规则,对第一文件的内容进行拆分操作,以生成第一文件的词语,有利于确定第一文件和第二文件之间的匹配度,通过根据预设关键词提取规则,提取第一文件的词语中的至少一个作为关键词,关键词的确定较准确,有利于检索提取出所有与第一文件相关的第二文件,进一步减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。
在上述任一项技术方案中,优选地,拆分单元还用于:根据预设拆分规则,对第二文件的内容进行拆分操作,以生成第二文件的词语。
在该技术方案中,通过预设拆分规则对第二文件的内容进行拆分操作,生成第二文件的词语,使得第一文件和第二文件的比对的是同一个级别的基本单元,有利于确定第一文件和第二文件之间的匹配度。
在上述任一项技术方案中,优选地,拆分单元还用于:根据段落分隔标记符拆分文件,生成段落集合;拆分单元还用于:根据句子分隔标记符拆分段落集合中的每个段落,生成句子集合;拆分单元还用于:根据正向迭代最细粒度切分算法拆分句子集合中的每个句子,每个句子生成至少两组词语集合;文件录入装置,还包括:比较单元,用于根据贪心算法比较至少两组词语集合的属性特征,确定每个句子的词语。其中,属性特征包括有效文本长度、词语个数、路径跨度、平均词语长度值、每个词语的位置中的至少一个。
在该技术方案中,拆分操作是通过预设拆分规则实现的,先根据段落分隔标记符拆分文件,生成段落集合,然后根据句子分隔标记符拆分段落集合中的每个段落,生成句子集合,再根据正向迭代最细粒度切分算法拆分句子集合中的每个句子,每个句子生成至少两组词语集合,最后根据贪心算法比较至少两组词语集合的属性特征,确定每个句子的词语,实现了将整个文件的内容拆分为词语,且拆分出来的词语的歧义率较低,提高了比对的有效性,进而提高了匹配度确定的准确性,减少了将相同或类似的文件录入到数据库中的可能性,也减少了将不同的文件漏掉的可能性。
比如,文件拆分成段落多以两个连续回车键、句号紧接回车键、问号紧接回车键或感叹号紧接回车键等作为识别。
再比如,段落拆分成句子多以句号、问号和感叹号及紧随上述符号的下引号等作为识别。
而句子拆分成词语,在英文中,可以通过空格及标点符号作为识别。但在中文中,需要通过较复杂的拆分算法来实现,本发明是通过正向迭代最细粒度切分算法来实现的。
具体地,程序会逐字识别词元,设输入“中华人民共和国“并且“中“单个字也是字典里的一个词,那么过程是这样的:“中“是词元也是前缀(因为有各种中开头的词),加入词元“中“;继续下一个词“华”,由于中是前缀,那么可以识别出“中”同时“中华”也是前缀因此加入“中华”词元,并把其作为前缀继续;接下来继续发现“华人”是词元,“中华人”是前缀,以此类推……。这样会拆分出几组词语集合。
通过贪心算法来根据词语的属性特征比较,确定每个句子的较优的词语,有利于减少拆分出来的词语的歧义率较低,提高了比对的有效性,进而提高了匹配度确定的准确性,减少了将相同或类似的文件录入到数据库中的可能性,也减少了将不同的文件漏掉的可能性。
需要说明的是,贪心算法,在对问题求解时,按照贪心策略,做出当前看来是最好的选择,也就是从问题的某一个初始解出发,按照贪心策略一步一步地进行,每一步都确保能获得局部最优解,进而确定拆分出最优的每个句子的词语。
具体地,比较至少两组词语集合的属性特征的原则顺序,也即贪心策略是有效文本长度越长越好、词语个数越少越好、路径跨度越大越好、平均词语长度值越平均越好、每个词语的位置越靠后越好。
在上述任一项技术方案中,优选地,比对单元还用于:比对第一文件的词语和第二文件的词语,以确定匹配句子;文件录入装置,还包括:统计单元,用于统计第一文件中匹配句子的个数和第一文件中句子的总个数;确定单元还用于:确定第一文件中匹配句子的个数和第一文件中句子的总个数的比值为第一文件和第二文件的匹配度。
在该技术方案中,通过比对第一文件的词语和第二文件的词语,确定匹配句子,通过统计第一文件中匹配句子的个数和第一文件中句子的总个数,并把第一文件中匹配句子的个数和第一文件中句子的总个数的比值确定为第一文件和第二文件之间的匹配度,以句子作为计算文件匹配度的基本单元,也就是说第一文件中含有的匹配句子越多,匹配度就越高,实现了第一文件和第二文件之间的匹配度的确定。
在上述任一项技术方案中,优选地,确定单元还用于:在确定两个句子包含的词语完全相同时,确定两个句子为匹配句子。
在该技术方案中,通过直接比对,也就是两个句子包含的词语完全相同时,就确定为匹配句子,匹配句子确定的准确性高。
在上述任一项技术方案中,优选地,确定单元还用于:在确定两个句子包含的相同的词语的个数与两个句子中的一个包含的词语的总个数的比值大于预设阈值时,确定两个句子为匹配句子。
在该技术方案中,通过部分比对,也就是在确定两个句子相同的词语个数的比值超过了预设阈值时,就确定为匹配句子,这个比例计算的分母一般选择较小的那个,比如句子A中有5个词语,句子B中有8个词语,句子A和句子B的相同的词语为4个,则这个比值为4/5,如果预设阈值设为0.75,则可以确定句子A和句子B为匹配句子。
在上述任一项技术方案中,优选地,还包括:判断单元,用于判断匹配度是否大于预设匹配度阈值;确定单元还用于:在判断单元判定匹配度大于预设匹配度阈值时,确定不录入第一文件;确定单元还用于:在判断单元判定匹配度不大于预设匹配度阈值时,确定录入第一文件。
在该技术方案中,通过匹配度与预设匹配度阈值的对比,来确定是否录入第一文件,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验,预设匹配度阈值可以设为0.75,也就是匹配度大于0.75的第一文件将不被录入数据库中。
在上述任一项技术方案中,优选地,预设关键词提取规则为TF-IDF关键词提取算法。
在该技术方案中,把TF-IDF关键词提取算法作为预设关键词提取规则,提高了关键词提取的效率和准确率。
具体地,TF-IDF关键词提取算法,是指先遍历第一文件中的词语,计算每个词语的词频,也就是用某个词语在第一文件中出现的次数除以第一文件中词语的总个数,或者用某个词语在第一文件中出现的次数除以第一文件中出现次数最多的词语的出现次数。然后,计算每个词语的逆文档频率,也就是用数据库中的文件总数除以包含该词语的文件数与1的和,确定一个比值,然后确定这个比值的对数值,就是这个词语的逆文档频率。最后,将词频与逆文档频率相乘即是每个词语的TF-TDF值,将TF-TDF值,降序排列,对应在最前面的几个词语,即关键词。
需要说明的是,TF-IDF,即term frequency-inverse document frequency,即词频-逆文档频率,而TF-TDF值即为词频与逆文档频率相乘。
本发明的第三方面的技术方案提出了一种计算机设备,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述本发明的第一方面的技术方案提出的任一项的文件录入方法的步骤。
在该技术方案中,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述本发明的第一方面的技术方案提出的任一项的文件录入方法的步骤,因此具有上述本发明的第一方面的技术方案提出的任一项的文件录入方法的全部有益效果,在此不再赘述。
本发明的第四方面的技术方案提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的第一方面的技术方案提出的任一项的文件录入方法的步骤。
在该技术方案中,计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的第一方面的技术方案提出的任一项的文件录入方法的步骤,因此具有上述本发明的第一方面的技术方案提出的任一项的文件录入方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明的一个实施例的文件录入方法;
图2示出了根据本发明的一个实施例的文件录入装置。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
图1示出了根据本发明的一个实施例的文件录入方法。
如图1所示,根据本发明的实施例的文件录入方法,包括:步骤S102,根据获取到的第一文件的关键词检索并提取至少一个第二文件;步骤S104,比对第一文件的词语和第二文件的词语,以确定第一文件和第二文件之间的匹配度;步骤S106,根据匹配度,确定是否录入第一文件。
在该实施例中,通过根据获取到的第一文件的关键词检索并提取至少一个第二文件,实现了将数据库中的已取的相关文件的提取,提高了比对的效率,通过比对第一文件的词语和第二文件的词语,来确定第一文件和第二文件之间的匹配度,匹配度的确定准确性较高,通过根据匹配度,确定是否录入第一文件,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。
值得特别指出的是,本发明基于一个基本假设,在比对确定文件的匹配度时,只考虑文件中的文字内容而忽略非文字内容,在第一文件是已经通过文件扫描仪、光学文字辨识机或网页应用界面等转换的计算机可读格式,在对第一文件进行拆分操作或者关键词提取之前,先对第一文件进行纯文字抽取,本发明中的文件均是指进行纯文字抽取后的文件。
在上述实施例中,优选地,在根据获取到的第一文件的关键词检索并提取至少一个第二文件之前,还包括:根据预设拆分规则,对第一文件的内容进行拆分操作,以生成第一文件的词语;根据预设关键词提取规则,提取第一文件的词语中的至少一个作为关键词。
在该实施例中,通过根据预设拆分规则,对第一文件的内容进行拆分操作,以生成第一文件的词语,有利于确定第一文件和第二文件之间的匹配度,通过根据预设关键词提取规则,提取第一文件的词语中的至少一个作为关键词,关键词的确定较准确,有利于检索提取出所有与第一文件相关的第二文件,进一步减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。
在上述任一项实施例中,优选地,在比对第一文件的词语和第二文件的词语以确定第一文件和第二文件之间的匹配度之前,还包括:
根据预设拆分规则,对第二文件的内容进行拆分操作,以生成第二文件的词语。
在该实施例中,通过预设拆分规则对第二文件的内容进行拆分操作,生成第二文件的词语,使得第一文件和第二文件的比对的是同一个级别的基本单元,有利于确定第一文件和第二文件之间的匹配度。
在上述任一项实施例中,优选地,拆分操作,具体包括:根据段落分隔标记符拆分文件,生成段落集合;根据句子分隔标记符拆分段落集合中的每个段落,生成句子集合;根据正向迭代最细粒度切分算法拆分句子集合中的每个句子,每个句子生成至少两组词语集合;根据贪心算法比较至少两组词语集合的属性特征,确定每个句子的词语。其中,属性特征包括有效文本长度、词语个数、路径跨度、平均词语长度值、每个词语的位置中的至少一个。
在该实施例中,拆分操作是通过预设拆分规则实现的,先根据段落分隔标记符拆分文件,生成段落集合,然后根据句子分隔标记符拆分段落集合中的每个段落,生成句子集合,再根据正向迭代最细粒度切分算法拆分句子集合中的每个句子,每个句子生成至少两组词语集合,最后根据贪心算法比较至少两组词语集合的属性特征,确定每个句子的词语,实现了将整个文件的内容拆分为词语,且拆分出来的词语的歧义率较低,提高了比对的有效性,进而提高了匹配度确定的准确性,减少了将相同或类似的文件录入到数据库中的可能性,也减少了将不同的文件漏掉的可能性。
比如,文件拆分成段落多以两个连续回车键、句号紧接回车键、问号紧接回车键或感叹号紧接回车键等作为识别。
再比如,段落拆分成句子多以句号、问号和感叹号及紧随上述符号的下引号等作为识别。
而句子拆分成词语,在英文中,可以通过空格及标点符号作为识别。但在中文中,需要通过较复杂的拆分算法来实现,本发明是通过正向迭代最细粒度切分算法来实现的。
具体地,程序会逐字识别词元,设输入“中华人民共和国“并且“中“单个字也是字典里的一个词,那么过程是这样的:“中“是词元也是前缀(因为有各种中开头的词),加入词元“中“;继续下一个词“华”,由于中是前缀,那么可以识别出“中”同时“中华”也是前缀因此加入“中华”词元,并把其作为前缀继续;接下来继续发现“华人”是词元,“中华人”是前缀,以此类推……。这样会拆分出几组词语集合。
通过贪心算法来根据词语的属性特征比较,确定每个句子的较优的词语,有利于减少拆分出来的词语的歧义率较低,提高了比对的有效性,进而提高了匹配度确定的准确性,减少了将相同或类似的文件录入到数据库中的可能性,也减少了将不同的文件漏掉的可能性。
需要说明的是,贪心算法,在对问题求解时,按照贪心策略,做出当前看来是最好的选择,也就是从问题的某一个初始解出发,按照贪心策略一步一步地进行,每一步都确保能获得局部最优解,进而确定拆分出最优的每个句子的词语。
具体地,比较至少两组词语集合的属性特征的原则顺序,也即贪心策略是有效文本长度越长越好、词语个数越少越好、路径跨度越大越好、平均词语长度值越平均越好、每个词语的位置越靠后越好。
在上述任一项实施例中,优选地,比对第一文件的词语和第二文件的词语,以确定第一文件和第二文件之间的匹配度,具体包括:比对第一文件的词语和第二文件的词语,以确定匹配句子;统计第一文件中匹配句子的个数和第一文件中句子的总个数;确定第一文件中匹配句子的个数和第一文件中句子的总个数的比值为第一文件和第二文件之间的匹配度。
在该实施例中,通过比对第一文件的词语和第二文件的词语,确定匹配句子,通过统计第一文件中匹配句子的个数和第一文件中句子的总个数,并把第一文件中匹配句子的个数和第一文件中句子的总个数的比值确定为第一文件和第二文件之间的匹配度,以句子作为计算文件匹配度的基本单元,也就是说第一文件中含有的匹配句子越多,匹配度就越高,实现了第一文件和第二文件之间的匹配度的确定。
在上述任一项实施例中,优选地,比对第一文件的词语和第二文件的词语,以确定匹配句子,包括:当确定两个句子包含的词语完全相同时,确定两个句子为匹配句子。
在该实施例中,通过直接比对,也就是两个句子包含的词语完全相同时,就确定为匹配句子,匹配句子确定的准确性高。
在上述任一项实施例中,优选地,比对第一文件的词语和第二文件的词语,以确定匹配句子,还包括:当确定两个句子包含的相同的词语的个数与两个句子中的一个包含的词语的总个数的比值大于预设阈值时,确定两个句子为匹配句子。
在该实施例中,通过部分比对,也就是在确定两个句子相同的词语个数的比值超过了预设阈值时,就确定为匹配句子,这个比例计算的分母一般选择较小的那个,比如句子A中有5个词语,句子B中有8个词语,句子A和句子B的相同的词语为4个,则这个比值为4/5,如果预设阈值设为0.75,则可以确定句子A和句子B为匹配句子。
在上述任一项实施例中,优选地,根据匹配度,确定是否录入第一文件,具体包括:判断匹配度是否大于预设匹配度阈值;若判定匹配度大于预设匹配度阈值,则确定不录入第一文件;若判定匹配度不大于预设匹配度阈值,则确定录入第一文件。
在该实施例中,通过匹配度与预设匹配度阈值的对比,来确定是否录入第一文件,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验,预设匹配度阈值可以设为0.75,也就是匹配度大于0.75的第一文件将不被录入数据库中。
在上述任一项实施例中,优选地,预设关键词提取规则为TF-IDF关键词提取算法。
在该实施例中,把TF-IDF关键词提取算法作为预设关键词提取规则,提高了关键词提取的效率和准确率。
具体地,TF-IDF关键词提取算法,是指先遍历第一文件中的词语,计算每个词语的词频,也就是用某个词语在第一文件中出现的次数除以第一文件中词语的总个数,或者用某个词语在第一文件中出现的次数除以第一文件中出现次数最多的词语的出现次数。然后,计算每个词语的逆文档频率,也就是用数据库中的文件总数除以包含该词语的文件数与1的和,确定一个比值,然后确定这个比值的对数值,就是这个词语的逆文档频率。最后,将词频与逆文档频率相乘即是每个词语的TF-TDF值,将TF-TDF值,降序排列,对应在最前面的几个词语,即关键词。
需要说明的是,TF-IDF,即term frequency-inverse document frequency,即词频-逆文档频率,而TF-TDF值即为词频与逆文档频率相乘。
实施例2
图2示出了根据本发明的一个实施例的文件录入装置。
如图2所示,根据本发明的实施例的文件录入装置200,包括:检索单元202,用于根据获取到的第一文件的关键词检索并提取至少一个第二文件;比对单元204,用于比对第一文件的词语和第二文件的词语,以确定第一文件和第二文件之间的匹配度;确定单元206,用于根据匹配度,确定是否录入第一文件。
在该实施例中,通过根据获取到的第一文件的关键词检索并提取至少一个第二文件,实现了将数据库中的已取的相关文件的提取,提高了比对的效率,通过比对第一文件的词语和第二文件的词语,来确定第一文件和第二文件之间的匹配度,匹配度的确定准确性较高,通过根据匹配度,确定是否录入第一文件,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。
值得特别指出的是,本发明基于一个基本假设,在比对确定文件的匹配度时,只考虑文件中的文字内容而忽略非文字内容,在第一文件是已经通过文件扫描仪、光学文字辨识机或网页应用界面等转换的计算机可读格式,在对第一文件进行拆分操作或者关键词提取之前,先对第一文件进行纯文字抽取,本发明中的文件均是指进行纯文字抽取后的文件。
在上述实施例中,优选地,还包括:拆分单元208,用于根据预设拆分规则,对第一文件的内容进行拆分操作,以生成第一文件的词语;提取单元210,用于根据预设关键词提取规则,提取第一文件的词语中的至少一个作为关键词。
在该实施例中,通过根据预设拆分规则,对第一文件的内容进行拆分操作,以生成第一文件的词语,有利于确定第一文件和第二文件之间的匹配度,通过根据预设关键词提取规则,提取第一文件的词语中的至少一个作为关键词,关键词的确定较准确,有利于检索提取出所有与第一文件相关的第二文件,进一步减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。
在上述任一项实施例中,优选地,拆分单元208还用于:根据预设拆分规则,对第二文件的内容进行拆分操作,以生成第二文件的词语。
在该实施例中,通过预设拆分规则对第二文件的内容进行拆分操作,生成第二文件的词语,使得第一文件和第二文件的比对的是同一个级别的基本单元,有利于确定第一文件和第二文件之间的匹配度。
在上述任一项实施例中,优选地,拆分单元208还用于:根据段落分隔标记符拆分文件,生成段落集合;拆分单元208还用于:根据句子分隔标记符拆分段落集合中的每个段落,生成句子集合;拆分单元208还用于:根据正向迭代最细粒度切分算法拆分句子集合中的每个句子,每个句子生成至少两组词语集合;文件录入装置200,还包括:比较单元212,用于根据贪心算法比较至少两组词语集合的属性特征,确定每个句子的词语。其中,属性特征包括有效文本长度、词语个数、路径跨度、平均词语长度值、每个词语的位置中的至少一个。
在该实施例中,拆分操作是通过预设拆分规则实现的,先根据段落分隔标记符拆分文件,生成段落集合,然后根据句子分隔标记符拆分段落集合中的每个段落,生成句子集合,再根据正向迭代最细粒度切分算法拆分句子集合中的每个句子,每个句子生成至少两组词语集合,最后根据贪心算法比较至少两组词语集合的属性特征,确定每个句子的词语,实现了将整个文件的内容拆分为词语,且拆分出来的词语的歧义率较低,提高了比对的有效性,进而提高了匹配度确定的准确性,减少了将相同或类似的文件录入到数据库中的可能性,也减少了将不同的文件漏掉的可能性。
比如,文件拆分成段落多以两个连续回车键、句号紧接回车键、问号紧接回车键或感叹号紧接回车键等作为识别。
再比如,段落拆分成句子多以句号、问号和感叹号及紧随上述符号的下引号等作为识别。
而句子拆分成词语,在英文中,可以通过空格及标点符号作为识别。但在中文中,需要通过较复杂的拆分算法来实现,本发明是通过正向迭代最细粒度切分算法来实现的。
具体地,程序会逐字识别词元,设输入“中华人民共和国“并且“中“单个字也是字典里的一个词,那么过程是这样的:“中“是词元也是前缀(因为有各种中开头的词),加入词元“中“;继续下一个词“华”,由于中是前缀,那么可以识别出“中”同时“中华”也是前缀因此加入“中华”词元,并把其作为前缀继续;接下来继续发现“华人”是词元,“中华人”是前缀,以此类推……。这样会拆分出几组词语集合。
通过贪心算法来根据词语的属性特征比较,确定每个句子的较优的词语,有利于减少拆分出来的词语的歧义率较低,提高了比对的有效性,进而提高了匹配度确定的准确性,减少了将相同或类似的文件录入到数据库中的可能性,也减少了将不同的文件漏掉的可能性。
需要说明的是,贪心算法,在对问题求解时,按照贪心策略,做出当前看来是最好的选择,也就是从问题的某一个初始解出发,按照贪心策略一步一步地进行,每一步都确保能获得局部最优解,进而确定拆分出最优的每个句子的词语。
具体地,比较至少两组词语集合的属性特征的原则顺序,也即贪心策略是有效文本长度越长越好、词语个数越少越好、路径跨度越大越好、平均词语长度值越平均越好、每个词语的位置越靠后越好。
在上述任一项实施例中,优选地,比对单元204还用于:比对第一文件的词语和第二文件的词语,以确定匹配句子;文件录入装置200,还包括:统计单元214,用于统计第一文件中匹配句子的个数和第一文件中句子的总个数;确定单元206还用于:确定第一文件中匹配句子的个数和第一文件中句子的总个数的比值为第一文件和第二文件的匹配度。
在该实施例中,通过比对第一文件的词语和第二文件的词语,确定匹配句子,通过统计第一文件中匹配句子的个数和第一文件中句子的总个数,并把第一文件中匹配句子的个数和第一文件中句子的总个数的比值确定为第一文件和第二文件之间的匹配度,以句子作为计算文件匹配度的基本单元,也就是说第一文件中含有的匹配句子越多,匹配度就越高,实现了第一文件和第二文件之间的匹配度的确定。
在上述任一项实施例中,优选地,确定单元206还用于:在确定两个句子包含的词语完全相同时,确定两个句子为匹配句子。
在该实施例中,通过直接比对,也就是两个句子包含的词语完全相同时,就确定为匹配句子,匹配句子确定的准确性高。
在上述任一项实施例中,优选地,确定单元206还用于:在确定两个句子包含的相同的词语的个数与两个句子中的一个包含的词语的总个数的比值大于预设阈值时,确定两个句子为匹配句子。
在该实施例中,通过部分比对,也就是在确定两个句子相同的词语个数的比值超过了预设阈值时,就确定为匹配句子,这个比例计算的分母一般选择较小的那个,比如句子A中有5个词语,句子B中有8个词语,句子A和句子B的相同的词语为4个,则这个比值为4/5,如果预设阈值设为0.75,则可以确定句子A和句子B为匹配句子。
在上述任一项实施例中,优选地,还包括:判断单元216,用于判断匹配度是否大于预设匹配度阈值;确定单元206还用于:在判断单元216判定匹配度大于预设匹配度阈值时,确定不录入第一文件;确定单元206还用于:在判断单元216判定匹配度不大于预设匹配度阈值时,确定录入第一文件。
在该实施例中,通过匹配度与预设匹配度阈值的对比,来确定是否录入第一文件,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验,预设匹配度阈值可以设为0.75,也就是匹配度大于0.75的第一文件将不被录入数据库中。
在上述任一项实施例中,优选地,预设关键词提取规则为TF-IDF关键词提取算法。
在该实施例中,把TF-IDF关键词提取算法作为预设关键词提取规则,提高了关键词提取的效率和准确率。
具体地,TF-IDF关键词提取算法,是指先遍历第一文件中的词语,计算每个词语的词频,也就是用某个词语在第一文件中出现的次数除以第一文件中词语的总个数,或者用某个词语在第一文件中出现的次数除以第一文件中出现次数最多的词语的出现次数。然后,计算每个词语的逆文档频率,也就是用数据库中的文件总数除以包含该词语的文件数与1的和,确定一个比值,然后确定这个比值的对数值,就是这个词语的逆文档频率。最后,将词频与逆文档频率相乘即是每个词语的TF-TDF值,将TF-TDF值,降序排列,对应在最前面的几个词语,即关键词。
需要说明的是,TF-IDF,即term frequency-inverse document frequency,即词频-逆文档频率,而TF-TDF值即为词频与逆文档频率相乘。
根据本发明的实施例的计算机设备,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述本发明的上述实施例提出的任一项的文件录入方法的步骤。
在该实施例中,计算机设备包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述本发明的实施例提出的任一项的文件录入方法的步骤,因此具有上述本发明的实施例提出的任一项的文件录入方法的全部有益效果,在此不再赘述。
根据本发明的实施例的计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述本发明的实施例提出的任一项的文件录入方法的步骤。
在该实施例中,计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明的上述实施例提出的任一项的文件录入方法的步骤,因此具有上述本发明的实施例提出的任一项的文件录入方法的全部有益效果,在此不再赘述。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种文件录入方法、装置、计算机设备和可读存储介质,通过比对待录入的第一文件与数据库中已有的第二文件,确定第一文件和第二文件之间的匹配度,然后根据匹配度来确定是否录入第一文件,减少了将相同或类似的文件录入到数据库中的可能性,提高了数据库的资源利用率,同时也减少了用户从数据库中获取到相同或类似文件的可能性,节约了用户的时间,提高了用户体验。
本发明方法中的步骤可根据实际需要进行顺序调整、合并和删减。
本发明装置中的单元可根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种文件录入方法,其特征在于,包括:
根据获取到的第一文件的关键词检索并提取至少一个第二文件;
比对所述第一文件的词语和所述第二文件的词语,以确定所述第一文件和所述第二文件之间的匹配度;
根据所述匹配度,确定是否录入所述第一文件。
2.根据权利要求1所述的文件录入方法,其特征在于,在所述根据获取到的第一文件的关键词检索并提取至少一个第二文件之前,还包括:
根据预设拆分规则,对所述第一文件的内容进行拆分操作,以生成所述第一文件的词语;
根据预设关键词提取规则,提取所述第一文件的词语中的至少一个作为关键词。
3.根据权利要求1所述的文件录入方法,其特征在于,在所述比对所述第一文件的词语和所述第二文件的词语以确定所述第一文件和所述第二文件之间的匹配度之前,还包括:
根据所述预设拆分规则,对所述第二文件的内容进行所述拆分操作,以生成所述第二文件的词语。
4.根据权利要求2或3所述的文件录入方法,其特征在于,所述拆分操作,具体包括:
根据段落分隔标记符拆分文件,生成段落集合;
根据句子分隔标记符拆分所述段落集合中的每个段落,生成句子集合;
根据正向迭代最细粒度切分算法拆分所述句子集合中的每个句子,所述每个句子生成至少两组词语集合;
根据贪心算法比较所述至少两组词语集合的属性特征,确定所述每个句子的词语,
其中,所述属性特征包括有效文本长度、词语个数、路径跨度、平均词语长度值、每个词语的位置中的至少一个。
5.根据权利要求1所述的文件录入方法,其特征在于,所述比对所述第一文件的词语和所述第二文件的词语,以确定所述第一文件和所述第二文件之间的匹配度,具体包括:
比对所述第一文件的词语和所述第二文件的词语,以确定匹配句子;
统计所述第一文件中所述匹配句子的个数和所述第一文件中句子的总个数;
确定所述第一文件中所述匹配句子的个数和所述第一文件中句子的总个数的比值为所述第一文件和所述第二文件之间的匹配度。
6.根据权利要求5所述的文件录入方法,其特征在于,所述比对所述第一文件的词语和所述第二文件的词语,以确定匹配句子,包括:
当确定两个句子包含的词语完全相同时,确定所述两个句子为所述匹配句子。
7.根据权利要求6所述的文件录入方法,其特征在于,所述比对所述第一文件的词语和所述第二文件的词语,以确定匹配句子,还包括:
当确定两个句子包含的相同的词语的个数与所述两个句子中的一个包含的词语的总个数的比值大于预设阈值时,确定所述两个句子为所述匹配句子。
8.根据权利要求1所述的文件录入方法,其特征在于,所述根据所述匹配度,确定是否录入所述第一文件,具体包括:
判断所述匹配度是否大于预设匹配度阈值;
若判定所述匹配度大于所述预设匹配度阈值,则确定不录入所述第一文件;
若判定所述匹配度不大于所述预设匹配度阈值,则确定录入所述第一文件。
9.根据权利要求1所述的文件录入方法,其特征在于,
所述预设关键词提取规则为TF-IDF关键词提取算法。
10.一种文件录入装置,其特征在于,包括:
检索单元,用于根据获取到的第一文件的关键词检索并提取至少一个第二文件;
比对单元,用于比对所述第一文件的词语和所述第二文件的词语,以确定所述第一文件和所述第二文件之间的匹配度;
确定单元,用于根据所述匹配度,确定是否录入所述第一文件。
11.根据权利要求10所述的文件录入装置,其特征在于,还包括:
拆分单元,用于根据预设拆分规则,对所述第一文件的内容进行拆分操作,以生成所述第一文件的词语;
提取单元,用于根据预设关键词提取规则,提取所述第一文件的词语中的至少一个作为关键词。
12.根据权利要求10所述的文件录入装置,其特征在于,
所述拆分单元还用于:根据所述预设拆分规则,对所述第二文件的内容进行所述拆分操作,以生成所述第二文件的词语。
13.根据权利要求11或12所述的文件录入装置,其特征在于,
所述拆分单元还用于:根据段落分隔标记符拆分文件,生成段落集合;
所述拆分单元还用于:根据句子分隔标记符拆分所述段落集合中的每个段落,生成句子集合;
所述拆分单元还用于:根据正向迭代最细粒度切分算法拆分所述句子集合中的每个句子,所述每个句子生成至少两组词语集合;
所述文件录入装置,还包括:
比较单元,用于根据贪心算法比较所述至少两组词语集合的属性特征,确定所述每个句子的词语,
其中,所述属性特征包括有效文本长度、词语个数、路径跨度、平均词语长度值、每个词语的位置中的至少一个。
14.根据权利要求10所述的文件录入装置,其特征在于,
所述比对单元还用于:比对所述第一文件的词语和所述第二文件的词语,以确定匹配句子;
所述文件录入装置,还包括:
统计单元,用于统计所述第一文件中所述匹配句子的个数和所述第一文件中句子的总个数;
所述确定单元还用于:确定所述第一文件中所述匹配句子的个数和所述第一文件中句子的总个数的比值为所述第一文件和所述第二文件的匹配度。
15.根据权利要求14所述的文件录入装置,其特征在于,
所述确定单元还用于:在确定两个句子包含的词语完全相同时,确定所述两个句子为所述匹配句子。
16.根据权利要求15所述的文件录入装置,其特征在于,
所述确定单元还用于:在确定两个句子包含的相同的词语的个数与所述两个句子中的一个包含的词语的总个数的比值大于预设阈值时,确定所述两个句子为所述匹配句子。
17.根据权利要求10所述的文件录入装置,其特征在于,还包括:
判断单元,用于判断所述匹配度是否大于预设匹配度阈值;
所述确定单元还用于:在所述判断单元判定所述匹配度大于所述预设匹配度阈值时,确定不录入所述第一文件;
所述确定单元还用于:在所述判断单元判定所述匹配度不大于所述预设匹配度阈值时,确定录入所述第一文件。
18.根据权利要求10所述的文件录入装置,其特征在于,
所述预设关键词提取规则为TF-IDF关键词提取算法。
19.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至9中任一项所述文件录入方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述文件录入方法的步骤。
CN201810120659.9A 2018-02-07 2018-02-07 文件录入方法、装置、计算机设备和可读存储介质 Pending CN108363767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810120659.9A CN108363767A (zh) 2018-02-07 2018-02-07 文件录入方法、装置、计算机设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810120659.9A CN108363767A (zh) 2018-02-07 2018-02-07 文件录入方法、装置、计算机设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN108363767A true CN108363767A (zh) 2018-08-03

Family

ID=63005037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810120659.9A Pending CN108363767A (zh) 2018-02-07 2018-02-07 文件录入方法、装置、计算机设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN108363767A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767227A (zh) * 2019-12-30 2020-02-07 浙江互灵科技有限公司 用于单灯控制的语音识别系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176962A (zh) * 2013-03-08 2013-06-26 深圳先进技术研究院 文本相似度的统计方法及系统
US20130339369A1 (en) * 2012-06-19 2013-12-19 Alibaba Group Holding Limited Search Method and Apparatus
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130339369A1 (en) * 2012-06-19 2013-12-19 Alibaba Group Holding Limited Search Method and Apparatus
CN103176962A (zh) * 2013-03-08 2013-06-26 深圳先进技术研究院 文本相似度的统计方法及系统
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
廖兴伟: "《文档复制检测方法研究与系统实现》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
杨茂: "《基于句子相似度的文本比对算法研究》", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110767227A (zh) * 2019-12-30 2020-02-07 浙江互灵科技有限公司 用于单灯控制的语音识别系统及方法

Similar Documents

Publication Publication Date Title
Wang et al. Integrating extractive and abstractive models for long text summarization
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US8983977B2 (en) Question answering device, question answering method, and question answering program
Halteren Author verification by linguistic profiling: An exploration of the parameter space
Savoy Authorship attribution based on specific vocabulary
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US10741092B1 (en) Application of high-dimensional linguistic and semantic feature vectors in automated scoring of examination responses
US9852122B2 (en) Method of automated analysis of text documents
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN109062912B (zh) 一种翻译质量评价方法及装置
Erdmann et al. Improving the extraction of bilingual terminology from Wikipedia
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
CN111767393A (zh) 一种文本核心内容提取方法及装置
CN107085568A (zh) 一种文本相似度判别方法及装置
Silveira et al. Combining a double clustering approach with sentence simplification to produce highly informative multi-document summaries
CN110166847A (zh) 弹幕处理方法和装置
CN108153728A (zh) 一种关键词确定方法及装置
CN111950267B (zh) 文本三元组的抽取方法及装置、电子设备及存储介质
CN109840291A (zh) 视频数据处理方法和装置
CN103246642A (zh) 信息处理装置以及信息处理方法
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
CN108363767A (zh) 文件录入方法、装置、计算机设备和可读存储介质
Tschuggnall et al. Reduce & attribute: Two-step authorship attribution for large-scale problems
CN116629238A (zh) 文本增强质量评估方法、电子设备、存储介质
Kutuzov et al. Cross-Lingual Trends Detection for Named Entities in News Texts with Dynamic Neural Embedding Models.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180803