CN108710607B - 文本改写方法及装置 - Google Patents
文本改写方法及装置 Download PDFInfo
- Publication number
- CN108710607B CN108710607B CN201810345021.5A CN201810345021A CN108710607B CN 108710607 B CN108710607 B CN 108710607B CN 201810345021 A CN201810345021 A CN 201810345021A CN 108710607 B CN108710607 B CN 108710607B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- rewriting
- input
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000012216 screening Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本改写方法及装置。该文本改写方法包括:根据待改写文本确定文本的输入词集合;在所述输入词集合中提取输入词的词特征向量;根据所述词特征向量确定关键词集;根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;根据所述文本改写对照表改写所述待改写文本。本申请解决了文本改写自动化程度低、文本风格特点难以把握和文本原意容易造成偏移的技术问题。
Description
技术领域
本申请涉及通信领域,具体而言,涉及一种文本改写方法及装置。
背景技术
自从人类进入信息时代以来,信息的规模经历了爆炸式的增长,人们每天接收铺天盖地的信息轰炸的同时,对于信息内容的质量也有了更高的要求。文本作为信息的一种重要载体,在人类文明悠久的长河中承载了至关重要的作用。而在视频音频内容都极大丰富的如今,人们是否还会将文本作为接收信息的首要途径已不得而知。这越来越对文本内容的新颖性和多样性提出了考验。
文本改写的目的在于对现有的文本进行风格、用词方面的变换,即保留文本的原意,又尽可能大的丰富文本的多样性和表现力。该技术在新闻出版和文学创作领域应用广泛。相比于人工文本改写所花费的时间精力以及知识门槛,一个好的文本自动改写系统能够在极短的时间内完成改写的同时,达到不弱于人工、甚至出乎意料的改写效果。因此,构建一个高效的文本自动改写系统具有十分重要的应用意义。
针对上述文本改写过程中存在的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本改写方法及装置,以解决文本改写自动化程度低、文本风格特点难以把握和文本原意容易造成偏移的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本改写方法。
根据本申请的文本改写方法包括:
根据待改写文本确定文本的输入词集合;
在所述输入词集合中提取词特征向量;
根据所述词特征向量确定关键词集;
根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;
根据所述文本改写对照表改写所述待改写文本。
进一步的,所述根据待改写文本确定文本的输入词集合包括:获取待改写文本的分词处理结果;根据词性标注算法确定所述分词处理结果的词性;整合所述分词处理结果与所述分词处理结果的词性得到所述输入词集合。
进一步的,所述根据待改写文本确定文本的输入词集合包括:获取所述待改写文本的分词处理结果;根据词性标注算法确定所述分词处理结果的词性;根据所述分词处理结果的词性筛选候选改写词库。
进一步的,所述候选改写词库的构建方法包括:利用训练语料训练词向量模型,得到目标词向量;计算目标词向量间相似度;根据目标词向量间相似度确定候选改写词库。
进一步的,所述在所述输入词集合中提取词特征向量包括:获取所述输入词集合中输入词的词频;获取所述输入词在重要性词库中的逆文档频率;整合所述词频与所述逆文档频率得到所述词特征向量。
进一步的,所述根据所述词特征向量确定关键词集包括:根据所述词特征向量确定输入词集合中输入词的排序序列;根据所述排序序列确定关键词集。
进一步的,根据所述关键词集对所述输入词集合筛选,得到文本改写对照表包括:判断输入词是否在所述关键词集中;如果该输入词不在所述关键词集中,则在候选改写词库中查找与所述输入词相对应的候选改写词;将所述输入词与所述候选改写词相匹配的记录进本改写对照表。
进一步的,所述如果该词不在所述关键词集中,则在候选改写词库中查找与所述词相对应的候选改写词包括:预设词性改写概率;如果该输入词不在所述关键词集中,则生成随机数;判断所述随机数是否大于所述输入词的词性改写概率;如果所述随机数小于所述词性改写概率,则在候选改写词库中查找与所述输入词相对应的候选改写词。
进一步的,所述将所述输入词与所述候选改写词相匹配的记录进本改写对照表包括:生成第二随机数;判断所述第二随机数是否大于所述候选改写词与所述输入词间的相似度;如果所述随机数小于所述候选改写词与所述输入词间的相似度,则将所述输入词与所述候选改写词相匹配的记录进本改写对照表。
为了实现上述目的,根据本申请的另一方面,提供了一种文本改写系统。
根据本申请的文本改写系统包括:根据待改写文本确定文本的输入词集合的分词与词性标注模块;在所述输入词集合中提取词特征向量的词库训练模块;根据所述词特征向量确定关键词集的关键词提取模块;筛选模块,用于根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;改写模块,用于改写所述待改写文本。
在本申请实施例中,采用词向量模型来训练不同风格文本语料中词与词的近义关系,并构建了不同风格下的候选改写词库,较人工方法提升了效率和覆盖率;在改写过程中引入了词性判别和关键词保留的方法,对当前词是否进行改写进行判断,能有效地改善改写系统通常易出现原意偏移和逻辑不通的问题;此外,在改写过程中引入了两个随机变量来控制改写流程,使得同一文本的改写结果也能达到尽可能的多样性。进而解决了文本改写自动化程度低、文本风格特点难以把握和文本原意容易造成偏移的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是第一实施例文本改写方法流程示意图;
图2是第二实施例文本改写方法流程示意图;
图3是第三实施例文本改写方法流程示意图;
图4是第四实施例文本改写方法流程示意图;
图5是第五实施例文本改写方法流程示意图;
图6是第六实施例文本改写方法流程示意图;
图7是第七实施例文本改写方法流程示意图;以及
图8是文本改写系统结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,根据本申请的一种文本改写方法,该文本改写方法包括步骤 S101至步骤S105。
步骤S101,根据待改写文本确定文本的输入词集合;
步骤S102,在所述输入词集合中提取词特征向量;
步骤S103,根据所述词特征向量确定关键词集;
步骤S104,根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;
步骤S105,根据所述文本改写对照表改写所述待改写文本。
如图2所示,所述步骤S101,根据待改写文本确定文本的输入词集合,具体包括步骤S201至步骤S203。
步骤S201,获取待改写文本的分词处理结果;本步骤对输入的待改写文本进行分词处理,得到该文本中词的序列。
步骤S202,根据词性标注算法确定所述分词处理结果的词性。通过词性标注算法判别这些词的词性,如名词n、动词v、形容词a和标点c等。
步骤S203,整合所述分词处理结果与所述分词处理结果的词性得到所述输入词集合。本步骤的整合方法为将分词处理结果与其词性相对应的记录为一个输入词集合。
如图3所示,所述步骤S101,根据待改写文本确定文本的输入词集合,具体还包括步骤S301。
步骤S301,根据所述分词处理结果的词性筛选候选改写词库。本步骤中,通过筛选,仅保留与所述分词处理结果的词性的候选改写词,以确保改写文本的准确性。
如图4所示,所述步骤S301中候选改写词库的构造方法具体包括步骤 S401至步骤S404。
步骤S401,利用训练语料训练Word2vec模型,得到目标词向量;
步骤S402,采用余弦相似度计算目标词向量间相似度;
步骤S403,设定候选改写词的相似度阈值;
步骤S404,保留相似度大于阈值的候选改写词获得候选改写词库。
如图5所示,步骤S102,在所述输入词集合中提取词特征向量具体包括步骤S501至步骤S503。
步骤S501,提取所述输入词集合中输入词的词频;
步骤S502,提取所述输入词在重要性词库中的逆文档频率。本步骤中的逆向文档频率可以由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到。
步骤S503,整合所述词频与所述逆文档频率得到所述词特征向量。本步骤中,将提取后的词频与逆文档频率作为该输入词的特征向量,以便于对其进一步处理。
如图6所示,步骤S102,根据所述词特征向量确定关键词集具体包括步骤S601至步骤S603。
步骤S601,将输入词的词频与该词的逆向文档频率相乘,获得该词在该文本中的重要性;
步骤S602,根据输入词的词性调整该词在该文本中的重要性;由于输入词的词性差异,导致不同词性的词在文本中的语义重要性与词出现的词频具有很大差异,因此通过词性对其进行调整可以平衡所述输入词的重要性,避免出现改写误差。本步骤中的调整方法为,预设词性调整权重,将所述词性调整权重与所述该词在该文本中的重要性相乘,得到调整后的重要性数值。
步骤S603,对每个词按重要性进行排序;
步骤S604,根据文章长度取前若干个重要性最高的词作为待改写文本的关键词集合输出。本步骤中,可根据文章具体长度的不同,确定适当数量的关键词作为关键词集合,避免由于关键词数量的过多或过少,导致改写结果的语义偏差或改写比例过低无法实现文本改写的效果。
如图7所示,步骤S103,根据所述关键词集对所述输入词集合筛选,得到文本改写对照表具体包括步骤S701至步骤S709。
步骤S701,预设词性改写概率;为保障文本改写效果的可控性,在改写前需要事先预置每种词性的词被改写的概率值Ppos,如名词Pn=0.5、动词Pv=0.5、 Pa=形容词0.8、标点Pc=0等。
步骤S702,判断输入词是否在所述关键词集中;在本步骤中判断输入词是否在关键词中可以仅对非关键词进行改写,避免造成改写后文本语义的偏差。同时在记录有文本改写对照表后,可优选的在本步骤前,判断所述输入词是否已经记录在所述文本改写对照表中,避免重复记录造成的改写时间延长、系统处理压力过大,也可以防止同一个词前后改写偏差。
步骤S703,如果该输入词不在所述关键词集中,则生成第一随机数;
步骤S704,判断所述随机数是否大于所述输入词的词性改写概率;
步骤S703与S704中通过生成随机数并对其与性改写概率进行判断,可以避免文本改写结果的单一性。通过随机数使得本文本改写方法对于相同的待改写文本可以生成多种改写结果,且每次均会有一定差异。
步骤S705,如果所述随机数小于所述词性改写概率,则在候选改写词库中查找与所述输入词相对应的候选改写词;在本步骤中,将候选改写词库中的候选改写词按与所述输入词的相似度排序,由大到小依次作为所述输入词的候选改写词。
步骤S706,判断所述候选改写词库中是否有所述输入词的候选改写词;
步骤S707,如果有所述输入词的候选改写词,则生成第二随机数;进一步的在本步骤中生成第二随机数,更加增强了文本改写结果的随机性。
步骤S708,判断所述第二随机数是否大于所述候选改写词与所述输入词间的相似度;
步骤S709,如果所述随机数小于所述候选改写词与所述输入词间的相似度,则将所述输入词与所述候选改写词相匹配的记录进本改写对照表;如果所述随机数大于所述候选改写词与所述输入词间的相似度,则返回S707,判断下一个候选改写词。
根据本申请的另一方面,提供了一种文本改写系统,该文本改写系统包括:
根据待改写文本确定文本的输入词集合的分词与词性标注模块1;
在所述输入词集合中提取词特征向量的词库训练模块2;
根据所述词特征向量确定关键词集的关键词提取模块3;
根据所述关键词集对所述输入词集合筛选,得到文本改写对照表的筛选模块4;
根据所述文本改写对照表改写所述待改写文本的改写模块5。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种文本改写方法,其特征在于,包括:
根据待改写文本确定文本的输入词集合;
在所述输入词集合中提取输入词的词特征向量;
根据所述词特征向量确定关键词集;
根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;
根据所述文本改写对照表改写所述待改写文本;
根据所述关键词集对所述输入词集合筛选,得到文本改写对照表包括:判断输入词是否在所述关键词集中;如果该输入词不在所述关键词集中,则在候选改写词库中查找与所述输入词相对应的候选改写词;将所述输入词与所述候选改写词相匹配地记录进文本改写对照表;
所述如果该词不在所述关键词集中,则在候选改写词库中查找与所述词相对应的候选改写词包括:预设词性改写概率;如果该输入词不在所述关键词集中,则生成第一随机数;判断所述随机数是否大于所述输入词的词性改写概率;如果所述随机数小于所述词性改写概率,则在候选改写词库中查找与所述输入词相对应的候选改写词。
2.根据权利要求1所述的方法,其特征在于,所述根据待改写文本确定文本的输入词集合包括:
获取所述待改写文本的分词处理结果;
根据词性标注算法确定所述分词处理结果的词性;
整合所述分词处理结果与所述分词处理结果的词性得到所述输入词集合。
3.根据权利要求1所述的方法,其特征在于,所述根据待改写文本确定文本的输入词集合包括:
获取所述待改写文本的分词处理结果;
根据词性标注算法确定所述分词处理结果的词性;
根据所述分词处理结果的词性筛选候选改写词库。
4.根据权利要求3所述的方法,其特征在于,所述候选改写词库的构建方法包括:
利用训练语料训练词向量模型,得到目标词向量;
计算目标词向量间相似度;
根据目标词向量间相似度确定候选改写词库。
5.根据权利要求1所述的方法,其特征在于,在所述输入词集合中提取词特征向量包括:
提取所述输入词集合中输入词的词频;
提取所述输入词在重要性词库中的逆文档频率;
整合所述词频与所述逆文档频率得到所述词特征向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述词特征向量确定关键词集包括:
根据所述词特征向量确定输入词集合中输入词的排序序列;
根据所述排序序列确定关键词集。
7.根据权利要求1所述的方法,其特征在于,所述将所述输入词与所述候选改写词相匹配的记录进文本改写对照表包括:
生成第二随机数;
判断所述第二随机数是否大于所述候选改写词与所述输入词间的相似度;
如果所述随机数小于所述候选改写词与所述输入词间的相似度,则将所述输入词与所述候选改写词相匹配地记录进文本改写对照表。
8.一种文本改写系统,其特征在于,包括:
分词与词性标注模块,用于根据待改写文本确定文本的输入词集合;
词库训练模块,用于在所述输入词集合中提取词特征向量;
关键词提取模块,用于根据所述词特征向量确定关键词集;
筛选模块,用于根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;
改写模块,用于改写所述待改写文本;
其中,根据所述关键词集对所述输入词集合筛选,得到文本改写对照表包括:判断输入词是否在所述关键词集中;如果该输入词不在所述关键词集中,则在候选改写词库中查找与所述输入词相对应的候选改写词;将所述输入词与所述候选改写词相匹配地记录进文本改写对照表;
所述如果该词不在所述关键词集中,则在候选改写词库中查找与所述词相对应的候选改写词包括:预设词性改写概率;如果该输入词不在所述关键词集中,则生成第一随机数;判断所述随机数是否大于所述输入词的词性改写概率;如果所述随机数小于所述词性改写概率,则在候选改写词库中查找与所述输入词相对应的候选改写词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810345021.5A CN108710607B (zh) | 2018-04-17 | 2018-04-17 | 文本改写方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810345021.5A CN108710607B (zh) | 2018-04-17 | 2018-04-17 | 文本改写方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108710607A CN108710607A (zh) | 2018-10-26 |
CN108710607B true CN108710607B (zh) | 2022-04-19 |
Family
ID=63866659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810345021.5A Active CN108710607B (zh) | 2018-04-17 | 2018-04-17 | 文本改写方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108710607B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401038B (zh) * | 2020-02-26 | 2023-10-27 | 支付宝(杭州)信息技术有限公司 | 文本处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6490549B1 (en) * | 2000-03-30 | 2002-12-03 | Scansoft, Inc. | Automatic orthographic transformation of a text stream |
CN101639826A (zh) * | 2009-09-01 | 2010-02-03 | 西北大学 | 一种基于中文句式模板变换的文本隐藏方法 |
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060112131A1 (en) * | 2004-07-14 | 2006-05-25 | Strike Friday, Inc. | Story rewriting system |
-
2018
- 2018-04-17 CN CN201810345021.5A patent/CN108710607B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6490549B1 (en) * | 2000-03-30 | 2002-12-03 | Scansoft, Inc. | Automatic orthographic transformation of a text stream |
CN101639826A (zh) * | 2009-09-01 | 2010-02-03 | 西北大学 | 一种基于中文句式模板变换的文本隐藏方法 |
CN102033919A (zh) * | 2010-12-07 | 2011-04-27 | 北京新媒传信科技有限公司 | 文本关键词提取方法及系统 |
CN104933183A (zh) * | 2015-07-03 | 2015-09-23 | 重庆邮电大学 | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 |
CN106610972A (zh) * | 2015-10-21 | 2017-05-03 | 阿里巴巴集团控股有限公司 | 查询改写方法及装置 |
Non-Patent Citations (1)
Title |
---|
Automatic Synonym and Phrase Replacement Show Promise for Style Transformation;Foaad Khosmood等;《2010 Ninth International Conference on Machine Learning and Applications》;20101214;摘要、第I-VI节 * |
Also Published As
Publication number | Publication date |
---|---|
CN108710607A (zh) | 2018-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
CN109739973A (zh) | 文本摘要生成方法、装置、电子设备及存储介质 | |
CN104573099B (zh) | 题目的搜索方法及装置 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN111190997A (zh) | 一种使用神经网络和机器学习排序算法的问答系统实现方法 | |
WO2009026850A1 (en) | Domain dictionary creation | |
Weerasinghe et al. | Feature Vector Difference based Authorship Verification for Open-World Settings. | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
Al-Azzawy et al. | Arabic words clustering by using K-means algorithm | |
JP7181693B2 (ja) | ニュース素材分類装置、プログラム及び学習モデル | |
CN108710607B (zh) | 文本改写方法及装置 | |
Kim et al. | Cross-lingual latent semantic analysis for language modeling | |
CN110019768B (zh) | 生成文本摘要的方法及装置 | |
Celikyilmaz et al. | An empirical investigation of word class-based features for natural language understanding | |
Thushara et al. | An analysis on different document keyword extraction methods | |
KR20160086255A (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
Rofiq | Indonesian news extractive text summarization using latent semantic analysis | |
CN107729509A (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
Singh et al. | Deep neural based name entity recognizer and classifier for English language | |
Sun et al. | Stylometric and Neural Features Combined Deep Bayesian Classifier for Authorship Verification. | |
CN109727591B (zh) | 一种语音搜索的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012 Patentee after: Daguan Data Co.,Ltd. Address before: Room 515, building Y1, No. 112, liangxiu Road, Pudong New Area, Shanghai 201203 Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. |
|
CP03 | Change of name, title or address |