CN101669119A - 内容处理装置、内容处理方法以及内容处理程序 - Google Patents
内容处理装置、内容处理方法以及内容处理程序 Download PDFInfo
- Publication number
- CN101669119A CN101669119A CN200880013917A CN200880013917A CN101669119A CN 101669119 A CN101669119 A CN 101669119A CN 200880013917 A CN200880013917 A CN 200880013917A CN 200880013917 A CN200880013917 A CN 200880013917A CN 101669119 A CN101669119 A CN 101669119A
- Authority
- CN
- China
- Prior art keywords
- content
- similarity
- document
- hide
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种经隐藏的事实和被隐藏的信息不易被阅读者推测出、并且能够获得具有与隐藏前的原内容的信息相近的自然的信息的内容的内容处理技术。内容处理装置包括:检索单元13,检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;计算单元14,计算表示由检索单元13所获得的内容中的每一个内容和内容中要隐藏的部分之间不相似的程度的非相似度;以及选择单元15,基于由计算单元14算出的非相似度从由检索单元13检索到的内容中选择与要隐藏的部分最不相似的内容。
Description
技术领域
本发明涉及隐藏内容(content)的特定部分的内容处理技术,特别是涉及经隐藏的事实以及被隐藏的信息不易被阅读者推测出、并且能够获得具有与隐藏前的原信息相近的自然的信息的内容。
背景技术
从提高业务效率和生产能力的观点来看,企业有时将业务委托给交易户或相关公司等外部公司,即进行所谓的外包。在这种情况下,当在向交易户委托开发业务等时,很多时候向承包方提供需求规范(requirementsdifinition documents)或说明书(specifications)等机密文件并请求合作开发。
在这种情况下,就委托方的企业来说,一方面可确保人力资源以缩短开发交货时间,但另一方面由于向公司外部提供文档和照片等机密性高的信息(下面,也称为机密内容)而存在信息外泄的风险。因此,每当向公司外部提供包含重要的开发信息的机密内容时,企业将采取以签保密协议为主的各种措施。
例如,作为向公司外部提供作为机密内容的机密文档时的通常的案例,有将不想向公司外部公开的关键词替换成其它的字符串(或文字串)以进行隐藏的方法。
或者,有时采取如下方法:代替向承包方提供包含企业秘密的信息的说明书,而是获得与该说明书的数据相近的相似文档,并公开所获得的相似文档和原来的说明书之间的差异。作为在这种情况下检索与某文档具有相同信息或相似信息的文档的相似文档检索技术,例如有专利文件1中公开的技术。
专利文件1的发明公开了着眼于文本信息的相似性的相似检索技术。具体来说,专利文件1公开了以下技术:当作为检索条件例示了内容的文档时,分别对包含在例示的文档中的文本信息等的特征信息和包含在所存储的文档中的文本信息等的特征信息进行比较,向比较结果乘以权重算出综合评价值来作为文档级别的相似度,然后作为检索结果,按照相似度从高到低的顺序输出文档。
专利文件1:日本专利文件特开2000-148793号公报。
发明内容
然而,例如每当将作为机密内容的机密文档向公司外部公开时,上述传统的方法存在以下的问题。
第一个问题是,由于字符串的替换导致文档整体的意思不清楚,有时无法向阅读者很好地传达开发的要点。
第二个问题是,对机密文档进行了隐藏处理的事情本身容易被猜到。这样的事情虽然不至于影响委托方和受委托方之间的相互信赖关系,但如果考虑完成开发业务的过程中的顺畅的沟通则不能说是优选的。
第三个问题是,可能从前后文的连贯性推测出被隐藏的关键词。
然而,专利文档1的技术只检索相似的文档,无法应对隐藏文档中的特定部分的问题。因此未能解决上述的问题。
并且,在其他传统的技术中,也没有找到能够隐藏特定部分、并能够提供对于阅读者来说自然的文档的技术,未能克服上述的问题。其结果是,每当向承包方提供机密文档时,大多数情况下不得不通过人工操作重新制作文档,需要很多精力和时间。
因此,本发明所要解决的问题是,提供一种经隐藏的事实以及被隐藏的信息不易被阅读者推测出、并且能够获得具有与隐藏前的原内容的信息相近的自然的信息的内容的内容处理技术。
解决上述问题的本发明是一种内容处理装置,其特征在于,包括:检索单元,所述检索单元检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;以及计算单元,所述计算单元计算非相似度,所述非相似度表示由所述检索单元获得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度。
另外,解决上述问题的本发明是一种内容处理方法,其特征在于,包括:检索步骤,检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;计算步骤,计算非相似度,所述非相似度表示通过所述检索步骤所获得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度;以及选择步骤,基于通过所述计算步骤算出的非相似度,从通过所述检索步骤检索到的内容中选择与所述要隐藏的部分不相似的程度大的内容。
另外,解决上述问题的本发明是一种信息处理装置的程序,其特征在于,所述程序使信息处理装置执行:检索处理,检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;计算处理,计算非相似度,所述非相似度表示通过所述检索处理所获得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度;以及选择处理,基于通过所述计算处理算出的非相似度,从通过所述检索处理检索到的内容中选择与所述要隐藏的部分不相似的程度大的内容。
发明效果
根据本发明,能够提供经隐藏的事实以及被隐藏的信息不易被阅读者推测出、并且能够获得具有与隐藏前的原内容的信息相近的自然的信息的文档。
这是因为本发明如下构成的缘故,即:检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容,计算表示通过所述检索所获得的内容与内容的要隐藏的部分之间不相似的程度的非相似度,并基于该计算结果,能够选择用于代替包含有要隐藏的部分的内容的内容。
附图说明
图1是示出本发明第一实施方式的结构的框图;
图2是示出本发明第一实施方式中的处理的流程图;
图3是示出本发明第二实施方式的结构的框图;
图4是示出本发明第一实施方式中的文档处理例的图;
图5是示出本发明第二实施方式中的文档处理例的图。
标号说明
0021
1文档处理装置
10文档数据库
11输入部
12指定部
13检索部
14非相似度计算部
15选择部
16输出部
20计算距离用的数据库
24非相似度计算部
具体实施方式
说明本发明的第一实施方式。
下面,在以文档作为内容的例子、并假定本发明的内容处理装置是文档处理装置的情况下进行说明。
图1是示出第一实施方式涉及的文档处理装置的整体结构的图。
附图标号1为文档处理装置,其与存储有文档的文档数据库10连接。
文档处理装置1具有输入部11、指定部12、检索部13、非相似度计算部14、选择部15、输出部16。
输入部11是输入文档的部分,例如是扫描仪等。
指定部12是用于指定在所输入的文档中想要隐藏的部分的指示设备,例如是鼠标等。
检索部13用于检索具有与作为原内容的文档中除要隐藏的部分(想要隐藏的部分)之外的部分的信息相似的信息的文档。具体来说,从数据库10中检索一个或多个相似文档,该一个或多个相似文档具有与所输入的文档中除要隐藏的部分之外的部分的信息相似的信息。具有与文档中除要隐藏的部分之外的部分的信息相似的信息的文档是指具有与要隐藏的部分之外的部分的信息实质上相同的信息的文档。具体来说,预先确定容许的相似度,并只检索超过该相似度的文档。
非相似度计算部14计算非相似度,该非相似度表示通过检索部13进行检索的结果而得的相似文档与由指定部12指定的部分(要隐藏的部分)的文档之间不相似的程度。具体来说,非相似度计算部14计算文档之间的欧几里德(Euclidean)距离来作为非相似度。
选择部15基于由非相似度计算部14算出的非相似度,选择与要隐藏的部分最不相似的文档作为输出对象文档。具体来说,从检索到的多个相似文档中选择非相似度最大的文档。
输出部16输出由选择部15选中的文档。
文档数据库10是由检索部13作为检索对象的文档数据库。其中存储有作为输出对象的文档。该文档数据库10是预先备好的公司内部的数据库,但也可以被构成为检索因特网上公开的WEB上的文档的数据库。
接下来,参考图1的框图以及图2的流程图,对如上构成的文档处理装置的动作进行说明。
下面,作为具体的事例假设如下案例:作为某汽车制造商的新车开发项目成员的A某(文档处理装置的用户)在每次选择引擎部件的供应商时,由于是保密项目因此无法向供应商公开正在进行新车开发。
另外,假设以下情况进行说明:由A某从输入部11输入的文档是用于选择供应商的以“用于新车开发所必需的高耐久性引擎部件的规格”为标题的说明书,并且通过指定部12指定了“新车开发”作为要隐藏的部分。
首先,如图4所示,经由输入部11输入以“用于新车开发所必需的高耐久性引擎部件的规格”为标题的文档(步骤S1),通过指定部12指定了“新车开发”来作为要隐藏的部分(步骤S2)。
此时,通过检索部13进行相似文档检索。即,参照文档数据库10,检索多个具有与所输入的文档中除被指定的部分“新车开发”之外的部分的信息相似的信息的文档(步骤S3)。具体来说,例如,对所输入的文档中除“新车开发”之外的其余部分进行形态分析(morphologicananlysis),生成以形态分析结果的独立词为中心并以“高耐久性”、“引擎部件”、“凸轮轴”、“阀门”等单词或短语为要素的单词矢量,计算将上述矢量与作为检索对象的多个文档中的每一个文档事先所具有的单词矢量进行内积而得的值来作为相似度,并只输出超过预先设定的容许的相似度的文档,作为检索结果。也可以从相似度高的文档依次作为检索结果来输出。
通过该检索部13进行检索的结果,获得了多个相似文档。例如,这里,进行检测的结果,获得了如下的相似文档(1)、(2)、(3):相似文档(1)以“用于参加F1赛事所必需的高耐久性引擎部件的规格”为标题、相似文档(2)以“用于开发卡车所必需的高耐久性引擎部件的规格”为标题、相似文档(3)以“用于在寒冷地区行驶的车辆所必需的高耐久性引擎部件的规格”为标题。
这里,在假定检索的结果获得了多个相似文档(与所输入的文档中除要隐藏的部分之外的部分信息相似的文档)的情况下进行了说明,但检索的结果也可以获得一个相似文档。
接下来,通过非相似度计算部14计算所输入的文档中被指定的部分的字符串“新车开发”与经过步骤S3的检索处理而检索到的文档中所包含的各字符串之间的距离值,作为非相似度(步骤S4)。这里,通过利用字符串级别的DP匹配方法计算欧几里德距离来算出该距离值。此时,由于相似文档(1)中不存在“新车开发”的字符串,因此获得“距离值=4”。而相似文档(2)、相似文档(3)中分别包含有“开发”和“车”的文字,因此算出的距离值小于4。
接下来,基于由非相似度计算部14算出非相似度的计算结果,通过选择部15选择与要隐藏的部分最不相似的文档,即,选择距离值最大的文档。这里,由于距离值=4的相似文档(1)的距离值最大,因此选择相似文档(1)作为所输入的文档的替代文档(步骤S5)。并且,经过输出部16的输出处理,获得以“用于参加F1赛事所必需的高耐久性引擎部件的规格”为标题的文档(步骤S6)。即,此时获得的相似文档成为具有与输入文档相近的信息、并且与被指定的部分关系浅的指定部分被隐藏了的文档。
在上述的第一实施方式中,以内容为文档的情况为例进行了说明,但内容也可以是静止图像、运动图像、语音或影像。例如,也可以如下:在数据库中事先存储图像以代替文档,使非相似度计算部计算进行检索的结果而得的相似图像的部分和想要隐藏的图像部分之间的数据差量来作为距离值,使选择部选择距离值大的图像,由此隐藏指定的图像部分。另外,例如,当想要隐藏包含在某影像中的特定人物时,检索具有与除要隐藏的人物的部分之外的部分的信息相似的信息的影像,从该检索到的影像中选择具有与要隐藏的人物远离的特征的(非相似度大)的其它人物的影像,由此获得隐藏了原人物的影像。
在上述的实施方式中,例举了由A某通过指定部12直接指定隐藏对象部分的案例,但不需要限定于此。在文档格式已确定的情况下,指定部也可以被构成为:例如通过预先定义“将标题部分作为指定部分”、“将目的部分作为指定部分”等的指定方法,来自动地指定输入文档中的要隐藏的部分。具体来说,例如在上述的第一实施方式中,通过预先定义“将标题部分指定为隐藏对象部分”的指定方法,能够将作为输入文档的标题的“用于新车开发的...”指定为要隐藏的部分。
另外,在上述实施方式中,例举了要隐藏的部分(指定部分)为字符串“新车开发”的情况,但指定部分也可以是单词,也可以是文档或文档的一部分。
另外,在上述的实施方式中,非相似度计算部被构成为计算包含在进行检索的结果而输出的相似文档中的字符串和指定部分之间的距离,但也可以将相似文档的整体和指定部分之间的距离作为计算距离的对象。
另外,在上述的实施方式中,将检索部和非相似度计算部作为分别独立的结构部分,但不需要限定于此。也可以将检索相似文档的检索部和计算相似文档和要隐藏的部分的文档之间的非相似度的非相似度计算部设置为同一个结构部分。
另外,在上述的实施方式中,将相似文档的“标题”部分作为与指定部分之间的距离计算对象,但不需要限定于此。例如,诸如在格式已被确定等情况下,也可以将指定部、非相似度计算部构成为将“目的”部分或“规格的概要”部分作为距离计算对象,而不限于“标题”部分,当然也能够构成为以上述的多个部分作为距离计算对象。
另外,在上述的实施方式中,作为非相似度,计算了文档间的欧几里德距离,但不需要限定于此。只要能够定量地测定不相似的程度即可,例如也可以计算单词之间的共现频率的总和或互信息(mutual information)量的总和,以作为非相似度。
接下来,利用图3来说明第二实施方式。图3是示出第二实施方式涉及的内容处理装置全体的框图。
这里,在假设内容为文档、本发明的内容处理装置为文档处理装置的情况下进行说明。
参考图3可知,在第二实施方式中,具有代替第一实施方式中的非相似度计算部14的非相似度计算部24,并且还具有计算距离用的数据库20。
计算距离用的数据库20是存储单词共现频率、单词互信息量等单词统计信息的数据库。
距离计算单元24基于包含在计算距离用的数据库20中的单词的统计信息来计算被指定的部分和检索到的文档之间的非相似度。具体来说,作为非相似度,计算包含在由检索部13进行检索的结果而得的文档中的单词(或者字符串)与包含在要隐藏的部分的文档中的单词(或特征词串)之间的各共现频率的总和。其中,共现频率是指在文档间同时出现特定的单词等的频率。
由于其他的结构部分的功能与第一实施方式相同,因此对于相同的结构部分标注与第一实施方式相同的标号,并省略详细的说明。
接下来,参考图5对第二实施方式的动作进行说明。
这里,假定作为某制造商的语音识别软件开发项目成员的B某(文档处理装置的用户)向外订购语音输入的噪声抑制器的情况进行说明。在此情况下,假定由于没有来得及就语音识别提出专利申请而无法向受订购方公开正在进行语音识别软件开发的情况来进行说明。
由B某经由输入单元11输入用于向外订购语音识别软件的“噪声抑制器说明书”。并且,经由指定部12指定“语音识别的识别精度”来作为要隐藏的部分。由此,作为要隐藏的部分的指定部分是“语音识别的识别精度”。
接下来,由检索部13以文档数据库10为对象,检索具有与除所述指定部分之外的部分的信息相似的信息的文档。具体来说,由检索部13以文档数据库10为对象,检索使用了所输入的文档中除“语音识别的识别精度”以外的“噪声抑制器”、“降低”、“ADPCM语音”、“8kHZ”等的相似文档。由该检索部13进行检索的结果,如图5所示,获得了多个相似文档。
接下来,非相似度计算部24参照包含在计算距离用的数据库20中的单词的统计信息,计算指定部分“语音识别的识别精度”与由检索部13进行检索的结果而得的多个相似文档中的每一个之间的非相似度。
具体来说,非相似度计算部24如下进行非相似度的计算。首先,计算构成指定部分“语音识别的识别精度”的单词“语音识别”、“识别精度”与包含在多个相似文档中作为距离计算对象的文档(例如,“用于便携式电话机的噪声抑制器的说明书”)中的单词“便携式电话机”、“受话音”、“质量”等单词之间的共现频率。并且,计算针对这些单词的每一组合算出的共现频率的对数值的总和,作为非相似度。
非相似度Dist的具体的计算公式以公式(1)为例示出。
公式(1)
Dist=-∑log(P(Wi,Wj))
(其中,Wi为包含在指定部分中的单词,Wj为包含在相似文档中的单词)。
通过公式(1)进行计算的结果,获得了例如“距离值=3.8632”。
接下来,选择部15基于所述算出的非相似度,选择非相似度最大的文档(与要隐藏的部分最不相似的文档)。由此,获得了例如“用于便携式电话机的噪声抑制器的说明书”的文档。
由此获得了具有与输入文档相近的信息、并且与被指定部分关系浅的指定部分被隐藏了的文档。
在上述的第二实施方式中,使用单词的统计信息作为计算距离用的数据库,并将非相似度计算部构成为基于单词之间的共现频率来计算非相似度,但不需要限定于此。例如,也可以基于单词互信息量来计算非相似度。并且,也可以使用词库(同义词词典)作为计算距离用的数据库,并计算单词彼此在词库上的距离的总和来作为非相似度。
具体来说,计算包含在指定部分中的单词(“语音识别”、“识别精度”)和包含在检索到的文档中的单词(“便携式电话机”、“受话音”、“质量”等)在词库上的距离、即计算表示单词间的关联性的层彼此间的层间距离的总和来作为非相似度,并选择该非相似度大的文档,由此能够获得适于隐藏指定部分的相似文档。此时的非相似度Dist的具体的计算公式以公式(2)为例示出。
公式(2)
Dist=∑(D(Wi,Wj))
(其中,Wi为包含在指定部分中的单词,Wj为包含在相似文档中的单词,D(Wi,Wj)是Wi和Wj在词库上的距离)。
另外,当计算距离时,也可以通过参考已公开的WEB上的信息来计算检索到的相似文档的出现频率和/或出现时刻,并对频率高或者最近出现的文档赋予权重来修正非相似度。
或者,也可以采用如下结构:每当计算非相似度时,在非相似度上进一步相加检索到的相似文档在WEB上出现的频率。通过如此修正,出现频率和/或公知程度高的文档被优先选择,因此有利于向承包方正确地传达规格。另外,也可以修正为代替出现频率选择出现时刻更新的文档,当然也可以将两者组合起来。
并且,当计算非相似度时,例如在包含在指定部分中的“语音识别”、“识别精度”等单词也存在于检索到的相似文档中的情况等下,也可以进行从非相似度中减去在检索到的相似文档中出现这些单词的频率的修正。由此,能够优先选择与指定部分的距离远的文档、即难以推测出要隐藏的部分(指定部分)的文档,从而能够更有效地防止情报向承包方外泄。
本申请要求基于2007年4月27日申请的日本专利申请第特愿2007-119393号的优先权,其全部公开的内容将被编入本说明书中。
产业上的实用性
本发明能够在由多个企业、部门、个人协作完成业务的方式的项目等中使用于制作用于外包/采购的文档、运动图像。
Claims (27)
1.一种内容处理装置,其特征在于,包括:
检索单元,所述检索单元检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;以及
计算单元,所述计算单元计算非相似度,所述非相似度表示由所述检索单元获得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度。
2.如权利要求1所述的内容处理装置,其特征在于,
所述检索单元基于预先设定的容许的相似度来检索超过所述相似度的内容,由此检索具有与除要隐藏的部分之外的部分的信息实质上相同的信息的内容。
3.如权利要求1或2所述的内容处理装置,其特征在于,
还包括选择单元,所述选择单元基于由所述计算单元算出的非相似度从由所述检索单元检索到的内容中选择与所述要隐藏的部分最不相似的内容。
4.如权利要求1至3中任一项所述的内容处理装置,其特征在于,
所述内容为文档,
所述计算单元计算由所述检索单元进行检索的结果而得的文档与包含在所述要隐藏的部分中的文档之间的欧几里德距离,作为所述非相似度。
5.如权利要求1至3中任一项所述的内容处理装置,其特征在于,
所述内容处理装置具有包含单词的统计信息的计算距离用的数据库,
所述计算单元参考所述计算距离用的数据库,计算包含在由所述检索单元进行检索的结果而得的文档中的单词与包含在所述要隐藏的部分的文档中的单词之间的各个共现频率的总和或者互信息量的总和,作为非相似度。
6.如权利要求1至3中任一项所述的内容处理装置,其特征在于,
具有词库,该词库作为所述计算距离用的数据库,
所述计算单元参考所述词库,计算包含在由所述检索单元进行检索的结果而得的相似文档中的单词与包含在所述被输入的文档中的被指定的范围内的单词在词库上的距离的总和,作为非相似度。
7.如权利要求1至3中任一项所述的内容处理装置,其特征在于,
所述计算单元被构成为计算包含在由所述检索单元进行检索的结果而得的文档中的单词或字符串的出现频率和进行所述检索的结果而得的文档的出现时刻中的至少一个,并基于所述计算的结果对所述非相似度进行修正。
8.如权利要求7所述的内容处理装置,其特征在于,
在所述计算单元中对非相似度进行的修正是将算出的出现频率加到所述非相似度上的修正。
9.如权利要求7或8所述的内容处理装置,其特征在于,
在所述计算单元中对非相似度进行的修正是计算所算出的出现时刻和当前时刻的差值、并将与该差值相应的权重值加到所述非相似度上的修正。
10.如权利要求1至9中任一项所述的内容处理装置,其特征在于,
具有用于指定被输入的文档中的要隐藏的部分的指定单元。
11.如权利要求10所述的内容处理装置,其特征在于,
所述指定单元被构成为,在文档格式已预先定义的情况下,指定被输入到所述文档格式的预定位置的文档、单词或者词串。
12.如权利要求1至3中任一项所述的内容处理装置,其特征在于,
所述内容为图像,
所述计算单元计算由所述检索单元进行检索的结果而得的图像的数据与包含在所述要隐藏的部分中的图像数据之间的差量,作为所述非相似度。
13.一种内容处理方法,其特征在于,包括:
检索步骤,检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;
计算步骤,计算非相似度,所述非相似度表示通过所述检索步骤所获得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度;以及
选择步骤,基于通过所述计算步骤算出的非相似度,从通过所述检索步骤检索到的内容中选择与所述要隐藏的部分不相似的程度大的内容。
14.如权利要求13所述的内容处理方法,其特征在于,
在所述检索步骤中,预先设定容许的相似度,并通过检索超过所述设定的相似度的内容来检索具有与除要隐藏的部分之外的部分的信息实质上相同的信息的内容。
15.如权利要求13或14所述的内容处理方法,其特征在于,
在所述选择步骤中,基于由所述计算单元算出的非相似度,从通过所述检索步骤检索到的内容中选择与所述要隐藏的部分最不相似的内容。
16.如权利要求13至15中任一项所述的内容处理方法,其特征在于,所述内容为文档,
在所述计算步骤中,计算由所述检索单元进行检索的结果而得的文档与包含在所述要隐藏的部分中的文档之间的欧几里德距离,作为所述非相似度。
17.如权利要求13至15中任一项所述的内容处理方法,其特征在于,在所述计算步骤中,参考包含单词的统计信息的计算距离用的数据库,计算包含在通过所述检索步骤进行检索的结果而得的文档中的单词与包含在所述要隐藏的部分的文档中的单词之间的各共现频率的总和或者互信息量的总和,作为非相似度。
18.如权利要求13至15中任一项所述的内容处理方法,其特征在于,在所述计算步骤中,参考作为所述计算距离用的数据库的词库,计算包含在由所述检索单元进行检索的结果而得的相似文档中的单词与包含在所述被输入的文档中的被指定的范围内的单词在词库上的距离的总和,作为非相似度。
19.如权利要求13至15中任一项所述的内容处理方法,其特征在于,在所述计算步骤中,计算包含在通过所述检索步骤进行检索的结果而得的文档中的单词或字符串的出现频率、或者进行所述检索的结果而得的文档的出现时刻中的至少一个,并基于所述计算的结果对所述非相似度进行修正。
20.如权利要求19所述的内容处理方法,其特征在于,
在所述计算步骤中对非相似度进行的修正是将算出的出现频率加到所述非相似度上的修正。
21.如权利要求19或20所述的内容处理方法,其特征在于,
在所述计算步骤中对非相似度进行的修正是计算所算出的出现时刻和当前时刻的差值、并将与该差值相应的权重值加到所述非相似度上的修正。
22.如权利要求13至21中任一项所述的内容处理方法,其特征在于,所述内容处理方法具有用于指定被输入的文档中的要隐藏的部分的指定步骤。
23.如权利要求22所述的内容处理装置,其特征在于,
在所述指定步骤中,在文档格式已预先定义的情况下,指定被输入到所述文档格式的预定位置的文档、单词或者词串。
24.如权利要求13至15中任一项所述的内容处理方法,其特征在于,所述内容为图像,
在所述计算步骤中,计算由所述检索单元进行检索的结果而得的图像的数据与包含在所述要隐藏的部分中的图像数据之间的差量,作为所述非相似度。
25.一种信息处理装置的程序,其特征在于,所述程序使信息处理装置执行:
检索处理,检索具有与原内容中除要隐藏的部分之外的部分的信息相似的信息的内容;
计算处理,计算非相似度,所述非相似度表示通过所述检索处理所获得的内容中的每一个内容与所述原内容的要隐藏的部分之间不相似的程度;以及
选择处理,基于通过所述计算处理算出的非相似度,从通过所述检索处理检索到的内容中选择与所述要隐藏的部分不相似的程度大的内容。
26.如权利要求25所述的程序,其特征在于,
在所述检索处理中,预先设定容许的相似度,并通过检索超过所述设定的相似度的内容来检索具有与除要隐藏的部分之外的部分的信息实质上相同的信息的内容。
27.如权利要求25或26所述的程序,其特征在于,
在所述选择处理中,基于通过所述计算处理算出的非相似度,从通过所述检索步骤检索到的内容中选择与所述要隐藏的部分最不相似的内容。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP119393/2007 | 2007-04-27 | ||
JP2007119393 | 2007-04-27 | ||
PCT/JP2008/058019 WO2008136381A1 (ja) | 2007-04-27 | 2008-04-25 | コンテンツ処理装置、コンテンツ処理方法、並びに、コンテンツ処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101669119A true CN101669119A (zh) | 2010-03-10 |
CN101669119B CN101669119B (zh) | 2012-08-08 |
Family
ID=39943490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008800139178A Expired - Fee Related CN101669119B (zh) | 2007-04-27 | 2008-04-25 | 内容处理装置和内容处理方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20100063965A1 (zh) |
JP (1) | JP5158379B2 (zh) |
CN (1) | CN101669119B (zh) |
WO (1) | WO2008136381A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016031733A (ja) * | 2014-07-30 | 2016-03-07 | 富士通株式会社 | 推論容易性算出プログラム、装置、及び方法 |
JP2019153056A (ja) * | 2018-03-02 | 2019-09-12 | 富士ゼロックス株式会社 | 情報処理装置、及び情報処理プログラム |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5933823A (en) * | 1996-03-01 | 1999-08-03 | Ricoh Company Limited | Image database browsing and query using texture analysis |
EP0849723A3 (en) * | 1996-12-20 | 1998-12-30 | ATR Interpreting Telecommunications Research Laboratories | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition |
GB9701866D0 (en) * | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
JP2000148793A (ja) * | 1998-09-11 | 2000-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体 |
WO2003107321A1 (en) * | 2002-06-12 | 2003-12-24 | Jena Jordahl | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
US8868405B2 (en) * | 2004-01-27 | 2014-10-21 | Hewlett-Packard Development Company, L. P. | System and method for comparative analysis of textual documents |
US20050004922A1 (en) * | 2004-09-10 | 2005-01-06 | Opensource, Inc. | Device, System and Method for Converting Specific-Case Information to General-Case Information |
JP4444141B2 (ja) * | 2005-02-23 | 2010-03-31 | シャープ株式会社 | 情報処理装置、情報処理方法、情報処理プログラム及びこれを記録したコンピュータ読み取り可能な記録媒体 |
US7844566B2 (en) * | 2005-04-26 | 2010-11-30 | Content Analyst Company, Llc | Latent semantic clustering |
US7770220B2 (en) * | 2005-08-16 | 2010-08-03 | Xerox Corp | System and method for securing documents using an attached electronic data storage device |
JP2007074169A (ja) * | 2005-09-05 | 2007-03-22 | Sharp Corp | 番組抽出装置 |
JP4918776B2 (ja) * | 2005-10-24 | 2012-04-18 | 富士通株式会社 | 電子文書比較プログラム、電子文書比較装置および電子文書比較方法 |
JP2007150724A (ja) * | 2005-11-28 | 2007-06-14 | Toshiba Corp | 映像視聴支援システムおよび方法 |
US7739279B2 (en) * | 2005-12-12 | 2010-06-15 | Fuji Xerox Co., Ltd. | Systems and methods for determining relevant information based on document structure |
US7724918B2 (en) * | 2006-11-22 | 2010-05-25 | International Business Machines Corporation | Data obfuscation of text data using entity detection and replacement |
-
2008
- 2008-04-25 JP JP2009512962A patent/JP5158379B2/ja not_active Expired - Fee Related
- 2008-04-25 CN CN2008800139178A patent/CN101669119B/zh not_active Expired - Fee Related
- 2008-04-25 US US12/595,346 patent/US20100063965A1/en not_active Abandoned
- 2008-04-25 WO PCT/JP2008/058019 patent/WO2008136381A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20100063965A1 (en) | 2010-03-11 |
WO2008136381A1 (ja) | 2008-11-13 |
CN101669119B (zh) | 2012-08-08 |
JPWO2008136381A1 (ja) | 2010-07-29 |
JP5158379B2 (ja) | 2013-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107851097B (zh) | 数据分析系统、数据分析方法、数据分析程序及存储介质 | |
WO2018053966A1 (zh) | 点击率预估 | |
Sifa et al. | Towards automated auditing with machine learning | |
CN111046221A (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
US11367117B1 (en) | Artificial intelligence system for generating network-accessible recommendations with explanatory metadata | |
US20200142938A1 (en) | Unbiasing search results | |
US11599586B2 (en) | Method and system for providing alternative result for an online search previously with no result | |
US20120310951A1 (en) | Custodian Suggestion for Efficient Legal E-Discovery | |
US20180053235A1 (en) | Unbiased search and user feedback analytics | |
CN112559895A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
Draws et al. | Viewpoint diversity in search results | |
Swaminathan et al. | Wearmail: On-the-go access to information in your email with a privacy-preserving human computation workflow | |
US20190385253A1 (en) | Systems and methods for determining structured proceeding outcomes | |
US10943073B2 (en) | Dynamic candidate expectation prediction | |
CN101669119B (zh) | 内容处理装置和内容处理方法 | |
WO2021176648A1 (ja) | 文書評価プログラム、文書評価方法および文書評価装置 | |
Han et al. | Explainable artificial intelligence-based competitive factor identification | |
JP6917400B2 (ja) | 文書審査支援方法、文書審査支援装置及びコンピュータプログラム | |
CN112560418A (zh) | 从自由形式的表格式数据创建行项目信息 | |
Liang et al. | Detecting novel business blogs | |
Donaldson et al. | Trustworthy Digital Repository Certification: A Longitudinal Study | |
JP4539616B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
CN113610504A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
US20090319505A1 (en) | Techniques for extracting authorship dates of documents | |
Ye et al. | Cross cultural Comparative Study on Emotional Analysis of Social Media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120808 Termination date: 20140425 |