WO2005033972A1 - 類似率算出装置並びに類似率算出プログラム - Google Patents

類似率算出装置並びに類似率算出プログラム Download PDF

Info

Publication number
WO2005033972A1
WO2005033972A1 PCT/JP2004/004451 JP2004004451W WO2005033972A1 WO 2005033972 A1 WO2005033972 A1 WO 2005033972A1 JP 2004004451 W JP2004004451 W JP 2004004451W WO 2005033972 A1 WO2005033972 A1 WO 2005033972A1
Authority
WO
WIPO (PCT)
Prior art keywords
technical
group
document group
similarity
cluster
Prior art date
Application number
PCT/JP2004/004451
Other languages
English (en)
French (fr)
Inventor
Hiroaki Masuyama
Noriaki Yoshino
Original Assignee
Intellectual Property Bank Corp.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intellectual Property Bank Corp. filed Critical Intellectual Property Bank Corp.
Priority to BRPI0415148-8A priority Critical patent/BRPI0415148A/pt
Priority to US10/573,778 priority patent/US20060294060A1/en
Priority to AU2004277629A priority patent/AU2004277629A1/en
Priority to JP2005514348A priority patent/JPWO2005033972A1/ja
Priority to CA002540661A priority patent/CA2540661A1/en
Priority to EP04724188A priority patent/EP1669889A4/en
Publication of WO2005033972A1 publication Critical patent/WO2005033972A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Definitions

  • the present invention relates to a similarity ratio calculation device and a similarity ratio calculation program for comparing similar technical documents to determine similarity.
  • the conventional patent map states that it is possible to compare the technology of the same or similar R & D themes using patent documents and to know the overall trend and distribution. By looking at the patent map, it is possible for management to analyze management trends such as market trends, technology trends, trends in entrants and rivals, and future potential.
  • the patent map if it is necessary to make a macro comparison between the technical documents A related to company A and the technical documents B related to company B, they belong to the technical documents A and B. They compared each technical literature on a micro scale, and derived macro-level comparisons between technical literature groups.
  • Fig. 19 is a diagram showing a conventional comparison situation in which the technical documents included in the technical document A group and the technical documents included in the technical document B group are individually microscopically compared.
  • Non-Patent Document 1 The intellectual property evaluation device and the like described in Japanese Patent Application Laid-Open No.
  • 2000-34080 include an invention that is pending or registered ⁇ ) — Evaluate the property value of intellectual property
  • the data on the execution profit is input, the execution profit input means, the data on the compound interest present rate for each year are input, and the compound interest present rate input means is provided.
  • -Input Compounded interest rate calculation means for multiplying the data on compounded interest rate for each ⁇ year by multiplying by.
  • the intellectual property price calculating means for calculating the intellectual property value by adding the compounded annual value of the compensation amount for each year calculated by the present value calculating means for each year, and the intellectual property price calculating means
  • Output device that outputs the intellectual property value calculated by the intellectual property evaluation device. Intellectual property evaluation method, etc.
  • Japanese Patent Laid-Open Publication No. 2000-76062 discloses a system and the like in which first data having a predetermined update interval and second data having an update interval shorter than the first data are used.
  • a system for evaluating an evaluation item that can fluctuate over time comprising: (a) a means for creating a first evaluation model in response to input of first data to be sampled; b) applying the first data of the sample object to a first evaluation model to calculate a first evaluation output; and (c—) the second data and the second data of the sample object.
  • the system is updated on a yearly or quarterly basis. ⁇ Financial data from balance sheets and profit and loss statements.
  • the model static model that conducts corporate reputation, such as the probability of childbirth, and the likelihood of childbirth.
  • the second is a relatively short update interval.
  • Dell Dynamic model / Le
  • Non-Patent Document 1 Japanese Patent Application Laid-open No. Hei 8-: sa081, Japanese Patent Application Laid-Open No. 2003-1703-79-1. : No. Public Bulletin, Tokuhei Hei, 1: 0 7.42 05, Japanese Unexamined Patent Application Publication No. 8-2788, 982, Japanese Unexamined Patent Application Publication No. 11-. , And Japanese Patent Application Laid-Open Publication No. 2000-1-3: 3 Published in IE: ⁇ ).
  • technical documents related to company A group A and: related to company B: shiko technical documents.
  • Group B There is a request to compare the contents described in the technical literature with the ones in a mark-like manner, but even if it is, the technical literature A—group Technical text toast.
  • the technical literatures belonging to each group were compared with each other, and a comparison between the technical literature groups was derived from the operation result of the flag. An inconvenience has occurred.
  • Non-Patent Document 1 It is possible to use the same or similar R & D theme, such as: Calculating the relative valuation of each technology based on the entire ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ - ⁇ ⁇ ⁇ ⁇ ⁇ quantitative:, qualitative: specific ⁇ 3 ⁇ 4; the Tokuchi desk - 'not a target of the evaluation of trust and investment, Ru 3 ⁇ 4 a company patent strategy decisive: Les problem, it is not possible to calculate the index of technology ⁇ 'Raw ⁇ . -.
  • the ratio of the number of technical documents to the total number of technical documents is calculated as follows: dr, ⁇ ⁇ . ⁇ -ViC ⁇
  • the calculated ratio is averaged and the similarity is calculated.
  • Weights Creates a 's' dictionary and calculates the arrogance based on the weights.
  • Non-Patent Document 1 Putty: Toe: The price of the explosion support software is about 150,000 ⁇ 5: about ⁇ 100,000. Of: to operation;
  • Sensation _ sensation A matches.
  • Similarity ratio calculation crucible Equipment, similarity ratio calculation program, and similarity calculation # 1 method Provide ⁇ h- ⁇ : Target.
  • the similarity ratio is calculated to be 0 only when the first technical document group and the 2nd technical document group are completely different from each other.
  • the similarity ratio can be calculated only when the document group is the same as the second technical document group, and a large amount of time-consuming calculation is not required, and the arbitraryness of the analyst is mixed.
  • the value of the similarity ratio calculated according to the following is unlikely to be changed:
  • the probability of the similarity between the first technical document group and the second technical document group is similar. It is an object of the present invention to provide a similarity ratio calculating device capable of calculating a slope ratio calculation method.
  • the case where the total technical literature to be compared is Wei ⁇ --: ::: Even if the similarity ratio is calculated in a relatively short calculation time, it is possible. It is intended to provide a calculation device, a similarity calculation program, and a similarity calculation method.
  • the technical literature group can be compared in a similar manner: a similarity ratio calculation device, a similarity ratio calculation program, and a similarity ratio calculation: It is intended to do so.
  • similarity calculation devices, similarity calculation programs, and similarity ratios can be easily obtained by investors and general practitioners who need to identify 'corporate value' through intangible property. It is intended to provide a calculation method.
  • the present invention provides:, a comparative example.
  • the present invention inputs the first technical document group and the second technical document group to be compared '': Oni literature. : "Technology" Enter technical information such as IPC.
  • I Technical information input method and 1st technique: Technical literature and 2nd technical literature-Technical-Literature:
  • the technical documents containing the technical information described above are each evaluated and the retrieved technical documents are classified into: a cluster for each technical information; a decomposition unit; and a result obtained by performing the cluster decomposition. . all click static number and the second of: technical literature group ⁇ first,:. 2 (..!
  • the present invention ratio: input the first technical literature group and the second technical literature group that are the target;; .ru "technique: Skill group input means: and techniques such as -key, -IPC, etc. information, force in ⁇ !. ⁇ information ⁇ Chikarate stage, the Yu ⁇ ) technique:.. surgeon document group and the second technical contained in the technical document group ⁇ Document, Te: the ⁇ mosquitoes and technical information Search for technical documents including ⁇ Technology searched for: Each of the three techniques is divided into clusters for each technical information 1: RU ⁇ ⁇ ⁇ 5- 5- 5- 5- 5-
  • the present invention provides a first technique to be compared :: inputting a document group and a second technical document group: inputting a technical document group: means and.
  • Gluster's decomposition means The total number of clusters obtained as a result of the ⁇ -tar decomposition:
  • Reference group of: Probability raised to the power of the number of technical documents to be extracted ( ⁇ V 0 ⁇ : ⁇ );; Sum of tt sampled E values for each mixed cluster: Similarity ratio calculation to calculate the similarity ratio by dividing 'ta': the budding stage, and the above-mentioned calculated ⁇ similarity ratio 3 ⁇ 4 ⁇ output to the recording means, display means, or communication means: output: power: step : It is characterized by
  • the present invention provides a technique for inputting a first technical document group and a second technical document group to be compared ⁇ :. ⁇ Input technical information such as IPC, etc.
  • Cluster decomposition is performed for each of the technical information
  • Star :: Decomposition hands: Steps: The total number of clusters and the first tea technique, including both the technical literature in the sentence, and the technical literature in the 2.- technical literature group ⁇ &:
  • the present invention provides: a comparative example; a first ⁇ technology as an elephant; a technical document group inputting a document group and a second technical document group.
  • Techniques for entering technical information such as IPC: Techniques for entering technical information: Dan, and: Included in the first and second technical literature groups and the second technical literature group.
  • the technical literature including the technical information is searched, and 3 ⁇ 4a clustering means for performing cluster decomposition on the searched technical literature for each technical information; and the above-mentioned guitar; the total number of clusters obtained as a result of the decomposition _
  • the current cluster including both technical documents in the technical literature group and the technical literature group.
  • Decomposition - is included in the mixed cluster: Ru technical literature Hajimu the: ride ': Koto first Technology ⁇ : Calculate the expected value for extracting the technical literature of the static group, and calculate the expected value and the technical literature ⁇ of the first technical literature group included in the mixed cluster. The expected value difference is calculated as an arbitrary constant (however,! ⁇ . Negative exponent: Correction ⁇ Calculates the sum of each mixed cluster. Kind of calculating the similarity rate by means of ig rate koto means and shearing
  • the present invention is a technology for inputting a technology / document group and a second technical document group.
  • . ⁇ .- Input technical information such as IPC : Technical information output stage, 1st: Included in the technical literature group and the second technical literature group.
  • the technical group of the technical literature group, and the technical group of the second technical group are examples of the technical literature group of the second technical group.
  • the first technical document group and the second technical document group which are composed of technical documents such as patent documents and technical reports, are similar to those for calculating an index for judging technical characteristics.
  • the rate calculation device A; 1.
  • Technical information input means Technology: Clusters that divide documents into clusters for each piece of technical information ⁇ ?
  • a similarity ratio calculating means for calculating, as a similarity ratio, a ratio of the number of mixed clusters including both technical documents in the technical document group of the technical document group, It has a recording means, a table; a means for outputting, and an output means for outputting to the communication means, and so on.Based on the ratio of the total number of clusters and the number of mixed clusters, It is possible to easily calculate an index that indicates the similarity of a given technical content.
  • the first correction value that is included in each mixed cluster is included in each mixed cluster before calculating the similarity ratio and is included in each mixed _ cluster:
  • the second correction value that takes a value according to the degree of mixing with the technical literature of the first technical literature group and the technical literature of the second technical literature group; and: multiplication,: sum of all mixed rasters , ⁇ : The number of clusters
  • the function to calculate the resemblance rate is provided, so the presence of the correction term 1 causes the importance to be included according to the amount of technical literature included in the mixed cluster. It is possible to make a correction that means high, and because of the presence of correction item 2, the closer the ratio of technical documents contained in the mixed cluster to the predetermined amount, the more
  • Toseiko 1 and ToTadashi claim 2 a:.
  • the similarity ratio calculation means includes: a cluster; a cluster; a bite; a correction value proportional to the number of contributions to the power of ⁇ (however, 0 and ⁇ ); _, The sum is calculated, the function is divided by the total number of clusters to calculate the nesting ratio; therefore, the number of technical documents in the cluster is large.) : , '' Can be calculated.
  • the similarity ratio calculation means in the raster technique in the raster is calculated by raising the ⁇ -th power (where 0 and ⁇ ) of the number to the total number of clusters, etc. Since the function to calculate the similarity ratio is provided, it is possible to maintain . ⁇ static ratio 1 -.-. Further, normalization factor and ⁇ es in the surgery number of documents;... Having placed flat 'average value, the technical literature number of Hitoshi ⁇ in all clusters to calculate some amount of Gojun technical literature This is possible
  • the similarity ratio calculation means [this, among the-second technical literature group: fern. multiplication - (- where shed ⁇ gamma) to each mix click a correction value proportional: calculating a sum for La data - and, provided the function of ⁇ the similarity rate is divided by the total number of clusters. That is, the similarity ratio calculation means (the number of combinations that retrieve ⁇ or ⁇ technical sentences in the ⁇ group, and ⁇ technical sentences in the ⁇ group) ( ⁇ (mixes the A group with the. S: Ta: Naka.The ability to ⁇ figure and calculate f ⁇ '' to Onoko from the number of '10' technical documents to be retrieved) is included in the A and ⁇ groups included in the mixed cluster.
  • the similarity ratio can be corrected to a large bias value, a Zen value, and a small value ⁇ case-: to a large correction value.
  • .. normalization factor As a child, ⁇ m in the first technical literature group, _ the first technical literature group ⁇ : ⁇ : The maximum probability of extracting n technical literatures Since the ⁇ value raised to the ⁇ power: (however, '.0)'-is arranged, 0 ⁇ class ratio 3 ⁇ 4 .3 ⁇ 4 is guaranteed within the calculation range of the similarity ratio.
  • the similarity ratio calculation handbag includes: the 1st ' ⁇ : dedication group included 1-the number of technical documents ⁇ and the number of technical documents included in the second technical document group ⁇ Revision ratio; ' ⁇ N / M and the result of cluster decomposition are obtained as follows: La 'ta; the number of technical documents in Okina 1's technical literature m ⁇ : Correction value proportional to the power (however, 0 ⁇ ⁇ ) is applied to the mixed quota.
  • the composition-ratio of the number of technical documents in Group I, Group I and Group I The more similar the mixture ratio of the technical flaws in each gradus is, the more similar: High :. Calculate _ (approach 1 :) :;
  • the ratio of the composition ratio of the technical literature quantity of the ⁇ group to the j mixture ratio of the technical literature inspector When it is large, it is possible to reduce the influence of the similarity ratio on the calculation result.
  • similarity ratio calculating means ::: 1: 1: Technical literature! Technical documents mixed with ⁇ and 2.
  • expected calculates the expected value and the mixed cluster: first included in: the expected value difference between the number of technical literatures technical document group and:.
  • ) is calculated for each mixed cluster, the sum is calculated, and the sum is divided by the total number of clusters to calculate the similarity ratio.
  • the similarity ratio calculation-means. The second technology-document group and the second technical document group are mixed.
  • Technical text of the document group The probability of extracting the documents is multiplied by the number of technical documents in the cluster-decomposed mixed class. 3 ⁇ 4! Calculate the value of the seasonal meal and calculate the difference between the expected value and the number of technical documents in the technical document group of Section -.1, which is included in the mixed cluster, as the expected value difference.
  • the difference which is obtained by dividing the difference by the number of technical documents included in the mixed Gusta J, is- ,; Any constant. (However: 1, 1.
  • the sum is calculated for each mixed cod; the divided sum is further divided by the total number of clusters to calculate the similarity ratio.
  • FIG. 1 is a whole-body composition diagram of the similarity ratio calculation system according to the present invention.
  • FIG. 2 is a block diagram of the similarity calculating device according to the present invention.
  • FIG. 3 is a diagram showing 'technology: configuration of documents' included in the technical document A group and the technical document B' group.
  • ⁇ 4 indicates similarity display processing-1: Flip chart o
  • FIG. 5 is a diagram showing an input screen display: example: for calculating a similarity ratio.
  • FIG. 6 is a diagram illustrating a display example of a “similarity / ratio display” screen ⁇ informing the user of the calculated similarity ratio.
  • FIG. 7 shows the configuration of each cluster after the technical literature group is solved using the similarity ratio calculating apparatus according to the present invention.
  • FIG. 8 is a flowchart showing a process of calculating the similarity ratio. :
  • Figure 9 is a chart showing the setting conditions used for calculating the similarity ratio :
  • Figure 10 shows that there are many technical documents in mixed cluster 1.
  • FIG. 1 A first figure.
  • FIG. 11 uses correction term 1 (1).
  • Example of calculation of similarity ratio for each case is shown in the table.
  • -Fig. 12 shows example of calculation of similarity ratio when correction term 2 (1) is used.
  • Chart of ⁇ FIG. 13 is a chart of an example of calculating the similarity ratio, in which the correction term 1 (1) and the correction 2:. :: ( ⁇ ' ⁇ :.;
  • Fig. 14 shows the case where the correction term 2 (2) is adopted.
  • Similarity ratio calculation example Fig. 15 shows the correction term 1 (1) and the correction term 2 ... (L.2). 13 is a chart of a similarity ratio calculation example in the case of adoption.
  • FIG. 16 is a chart showing an example of the calculation of the term value difference in the case where conditions 1 to :: 4 are substituted for (Equation 31 ).
  • FIG. 18 is a chart of an example of calculating the similarity ratio when the correction term. 1 (1) and the correction term 2 — (: 3) are adopted.
  • Fig. 19 is a diagram showing a microscopic comparison of the technical literature included in the technical literature ⁇ group and the technical literature included in the technical literature B group individually: conventional.
  • FIG. 1 is a similarity rate calculation cis beam according to the present invention: is an overall configuration diagram of a. .
  • the -similarity ratio calculation system comprises: calculating a similarity ratio from a technical reference database 20 via a communication network 10: necessary: technology.
  • Apparatus 3 o Record technical reports, including patent reports of patent applications, patent publications of utility patents, utility model reports, etc., via the communication network 10.
  • a technical literature database 20 is provided.
  • Communication network 10 is the Internet I etc. Communication: Network, Similarity: Calculation.
  • FIG. 2 is a block diagram of the similarity ratio calculating device according to the present invention.
  • the similarity ratio calculation device. 3- ⁇ The technical information data is sent to the information transmission / reception unit via a public network or a communication network such as a communication network: 36.
  • the transmission / reception means 365 can acquire the technical documents necessary for calculating the similarity rate from the technical document denita: base 2: 0 via the communication network 10.
  • the similarity calculating device 30 inputs information related to the technical literatures to be compared (comparison conditions) and the conditions for comparison between the literatures from: a user.
  • Means 3 7 0 Includes the function of the technical information input means.
  • the similarity ratio calculating device 30 reads various information input through the input means 370 and transmits it to the information processing means 380 described later, or based on an instruction from the information processing means 380.
  • Display command is output to LED, etc ..
  • Input interface 3 7 1 (It may include the function of technical information input means.) And display information such as images and characters. (It may include the function of the output means: and: Based on the command of the information processing means 3.8.0, the display means 3 A display interface for outputting an image signal is provided with a display interface 37 7 3 (including a function of an output means: may be used). It includes input devices such as tablets as well as mice and mice.
  • the similarity ratio calculating device 30 has a recording medium mounting section 3.78 in which the recording medium 377 is removably mounted, and a recording medium “3 717 for each: species detailed information: recording medium and reads Intafue varnish 3 ⁇ 7 9.
  • the recording Medium: 377 is represented by: semiconductors such as 'mail', MO, magnetic disk, etc .: magnetic recording, optical recording And the like.
  • the similarity ratio calculating device 30 includes: a similarity ratio calculating device.3 ⁇ ⁇ the entire information processing means 380 for performing control; and the information 3 ⁇ 43 ⁇ 4 380 R: OM where various constants are recorded, and the information processing operator 380 processes it.
  • Memory 3 8 1 is provided. :
  • the information processing means 380 (cluster decomposition means or similarity ratio calculating means) is used by the user to input the information to be compared with the technology to be compared:?: Then, the technical literature necessary for calculating the similarity ratio is obtained from the technical literature database 20 and recorded by the recording means 3 8 4 ⁇ Record: Done 1: Rule_even rate : Calculation : 1? Gram and similarity rate calculation program 3 ⁇ 4 Zui was Doconnection Ru o ⁇ * and it ⁇ possible to realize the function of calculating the similarity rate between technical literature on the,:: similar: constant horn out and displays on the display means 3 7 2 results : Function It is possible to undermine.
  • the information processing means 380 (the class decomposition means is included in the claims in the r document, the detailed description of the invention, the brief explanation of drawings, the explanation, the summary, etc .: ('Single :. words, idioms, nouns, verbs, auxiliary verbs, adjectives, -adverbs, postpositions, etc.); Then, each of the searched technical documents is classified for each S operation information.
  • information processing means 380 is a bibliographic item; food:: items to be included (classification of IPC, etc., application, 'application number, application name,. C: i
  • -Information processing means 380 similarity ratio: calculation means:,-:: cluster decomposition
  • ⁇ Extraction ⁇ Realize the function of calculating the similarity ratio between the document groups. It.
  • All of these processes are performed by the information processing means': 38: ⁇ ; f twisting....
  • the purpose of the present invention can be achieved by executing the processes in a shared manner among a plurality of processing devices. It is.
  • the similarity ratio calculation device 30 has a similarity ratio calculation device K 3 ⁇ 0: Processing-related : Various constants ⁇ Connect to a communication device on the network: Attribute information, information : y
  • RL Uniform Resource Locators
  • Gait '-Nii Information, connection information such as DNS (Domain Name System), information on corporate management.
  • DNS Domain Name System
  • Various information such as technical information: record information: recordable hard disk etc .: ⁇ means: 3: 3 -4, and :;
  • Each peripheral circuit including the clock 390, etc. is connected to the bus 399.
  • the peripheral circuits of each are controlled based on the 'program' executed by the information processing means 380. It is possible to realize the function: '.
  • the technical information input means is capable of inputting technical information such as a key and a C.
  • the output means such as an interface can output the similarity ratio calculated by the similarity ratio calculation means to the recording means, the display means, or the communication means. ..
  • the database 20 shown in Figure 1 is stored in :::,
  • the above-described similarity ratio calculation device 3.A can be cooled by using various computers such as: a computer, a computer, and a coffee station.
  • the computer may be repetitively executed with the function of "net.:talk" to distribute the functions: ,
  • the similarity ratio calculating apparatus M according to the present invention M and the similarity ratio of the technical literature calculated using the similarity ratio calculation program ⁇ and ⁇ M 1 ′ technical literature group r. (Technical literature A group).
  • the first technical document group (technical document ⁇ : group) and the second “technical document.document group” (technical document) group) have some attribute: a collection of technical documents :.
  • the more similar the technical contents described in the first technology the document group ('Technical document A group).
  • the second technical document group the technical document B group
  • the ratio takes a large value and :: definition: e: v.
  • the similarity ratio is calculated. Different: even if the conditions are set, the first technical document group (technical document A-group) and the second technical document group (technical document group) The similarity ratio calculated between-(article B group)-and the third 'technical document group (technical document ... group C) and the fourth technical document group (technical document group D): calculated between In order to be able to directly compare the similarity ratio and ', it is possible to perform :: the operation in which the similarity ratio is within a possible range, and then perform an operation such that 0 ⁇ similarity ratio ⁇ 1. However, the possible range of the similarity ratio is limited to this range. . I
  • Figure 3 is a view to showing the configuration of the 1 ⁇ . Murrell technical literature in the technical literature group A and technical literature. B group.
  • the technical literature ⁇ ⁇ group is composed of M.
  • technical literatures of -A1, .A2 ;: A3, ", :: ', and the technical literature: ⁇ 1 ⁇ , ⁇ 2,: ⁇ 3 :,...: ⁇ ⁇ is composed of ⁇ technical documents.
  • FIG. 4 shows the similarity ratio display process.
  • the similarity ratio calculating device 30 executes S100- “input image-screen readout 'display.'” As follows: Based on the similarity ratio calculation instruction, based on the similarity ratio calculation, the input screen of various conditions related to the similarity ratio calculation is displayed. Display, read out information from recording means 3 8 4-Based on the displayed information-Similarity ratio. :: Display input screen of conditions required for calculation: Display on means 3 ⁇ 72. : '
  • Fig. 5 is a diagram showing a display example of the input: screen ffi for calculating the similarity ratio. ⁇ ; As shown in the figure, the input screen shows the T comparison target. The information that specifies the sentence-collection and the extraction of the second technical document group and the information that specifies the technical information such as the key I2PC are displayed. You. It is possible for users to input various items based on the display screen. In the part for inputting the conditions of cluster decomposition, ⁇ The target of patent gazettes, technical reports, etc .. Specification of documents, full text, only claims, etc .: Setting of target part, cluster of IPC, Kinade, etc. It is possible to input various conditions such as decomposition scale.
  • a partial force for inputting a correction method is provided for the purpose of calculating the similarity ratio of the mixed cluster ratio.
  • the similarity ratio is corrected based on a value corresponding to the amount of technical literature included in each mixed glass: the user can input a correction condition of whether or not to reject the similarity ratio. It is possible.
  • the composition ratio ⁇ _ / of the number of technical documents included in the first technical document ⁇ . And the number of technical documents included in the second technical document group:.
  • the first-first technical literature group included in the soil.
  • the number of technical / literatures m and the number of technical literature in the second technical literature group n were present in the soil.
  • And-The ratio between the composition ratio and the mixture ratio is also taken, but the correction value transferred to ⁇ ⁇ (where ',: ⁇ . ⁇ ) is calculated for each mixed cluster. This is divided by the total number of clusters to correct the similarity ratio, etc., and it is possible to select a correction method according to the “mixture ratio:!” In the technical literature.
  • the first technical literature group and the second technical literature group are mixed, and the technology of the first technical literature group is extracted from the technical literature group. Multiplied by the technology 3 ⁇ 4 number of contributions included in the clusters that have been decomposed into clusters: multiplication. Expected value to obtain the technical literature of the first technical literature group is calculated. Mixed. Calculate the difference between the number of technical documents in the first technical document group included in the cluster as the expected value difference: as, and calculate the expected value difference as an optional definite teaching (-low :. Calculate the sum of the negative values of the negative exponents,., And-for each mixed cluster:-,-: multiply this by the number of all clusters to correct the similarity ratio, etc. Expected value difference ; -to- .: It is possible to select a correction method according to the value.
  • the information processing means 3.80 is based on the user.
  • Kao Search based on the input technical document type (for example, patent document).
  • - Identify the source, input from the user and obtain the technical literature group based on the designation of the technical literature group '(for example, A: Company technology ⁇ : Contribution-Group A and B company technical document B group).
  • the similarity ratio is calculated in the “similarity ratio calculation process.”
  • the calculation devices 3 and 0 are the technical documents acquired from the database 20 (for example, the technical documents A and B: From the technical literature B group), the technical literature containing the common PC and keywords specified by the user is selected and the processing is performed to decompose it for each cluster. -As a result of the cluster decomposition, the technical literature belongs to group A.
  • the technical literature and technical literature belonging to technical group B are mixed: A cluster is defined as a mixed Kusuda. In the present invention, among all clusters, a mixed cluster exists.
  • the similarity ratio is calculated based on
  • Similarity ratio calculation output device 30 was calculated. Similarity ratio is displayed on display means 3 72: Notify to user: Not notified The similarity ratio is displayed on the display means 3 7 2 at S. 06. The calculated similarity rate is displayed on the transmission means 3 6 5 and other communication devices via the communication network 10. The recording medium may be recorded and output to stage 3 84. The recording medium may be transmitted to and output from the recording medium. In: Ta: Huh? ⁇ Record and output to the recording medium 377 via the source 379. : Also, the calculated similarity ratio is output to a printing unit via a pre-printer for printing (not shown). -FIG. 6 is a diagram showing a display example of a similarity ratio display screen that notifies the user of the similarity ratio calculated by the similarity ratio calculation device 30 '.
  • the similarity rate display side On the other hand: The information that the user extracted and the technique to extract and specify the group of documents and the technical boat information such as the keyword IPc 'were separated into clusters. Input-information such as scale and correction method at the time is displayed for confirmation.
  • the correction term: 3 is set as: .. ri:.: Rq 0; DJ.
  • the similarity ratio display screen displays the similarity ratio: calculation: the result, the similarity ratio such as c,, ⁇ , etc. to compensate for the similarity ratio, and the like: the ratio calculation conditions are continuously changed.
  • Yes There is a part that displays the contents of the '. -The user looks at the calculated similarity ratio and--freely: sets the conditions for calculating the similarity ratio; It is possible to change. .
  • Interest 'for the person slide - de The operation was if the bar, information processing means 3 8 0 calendar clock, 3-9.0 is have time based on the coefficient, the slide bar operation is complete: Han Avoid. Then, the processing performed by the elaborate information processing means 3:80 branches to S104.Then, the similarity ratio is calculated again, and the calculation result of the similarity ratio is displayed on the similarity ratio display screen: Perform the following processing.
  • the cluster decomposition of technical literature in the present invention is a macro-comparison between ': the first technical literature group' ( ⁇ -group) and the second technical literature group (group ⁇ ). "Calculation"-Classification of technical documents using keyword KPC etc. when calculating '-'.
  • the technical documents of both the first technical document group and the second technical document group are mixed into one group.
  • a cluster contains m technical documents belonging to the first technical document group and n technical documents belonging to the second technical document group.
  • FIG. 7 shows the similarity ratio calculation according to the present invention: ⁇ j.
  • the cluster of the technical literature group is divided using the funeral home. , '
  • Patent Document B For each existing restaurant meal: IPC" G06F17Z30 " Contribution A1, ". And _: Includes elements from” Patent Document Bl. "
  • a cluster can be composed of each of its attributes.
  • -technology such as patent publications; 3 ⁇ 43 ⁇ 4: e: Speaking of, filing date, I pc, etc. .: - ⁇ : .. ⁇ ⁇
  • the cluster decomposition method of the information processing means 380 etc. is: the first _ technical literature group and the technical literature included in the second technical literature group. : Technology that contains the entered technical information: The contribution is evaluated, and the retrieved technical documents are decomposed into clusters for each technical information.
  • a mixed class is defined as follows:
  • the IPC “G06F17r / 30” cluster, shown in Fig. 7, has the following technologies: ⁇ : Patent A1 belonging to group A and technical literature B: belongs to group.
  • the non-mixed cluster is defined as follows.
  • a cluster in which technical documents belonging to technical document A and technical documents belonging to technical document B do not coexist is defined as a non-mixed raster: Fig. 8 , which indicates the similarity ratio calculation process.
  • the processing performed by the information processing means 380 is shown in FIG. 4 j.
  • the processing performed by the information processing means 380 is S-20.-. 0, to: branching; S, 2 .. Perform the processing from ⁇ -0 onwards.
  • the information processing of the similarity rate calculating device 30-hand “Step 3:80 is ⁇ S 2 0 0." Confuses the group of technical documents A and the group of technical documents B "-v SI 0 2". Acquisition of technical literature " ⁇ :: First technical literature group acquired from the database (for example, company A), first technical literature group and second technical literature group of Company B) Mixed ;; Processing to make a group of documents is performed.
  • Correction term 1 is included in the mixed cluster, and the larger the amount of 3 ⁇ 4 technique_mouth and text, the higher the similarity rate is considered to be an important cluster. This is a correction term for correcting the similarity ratio.
  • the information processing means 380 corrects the similarity ratio according to the degree of mixing with the technical document A and the technical document B included in the mixed cluster in S2 06 "Set the calculation formula of correction term 2". If the user has input an instruction to that effect, the user selects a formula for the correction term based on the instruction. 'Then, a process of substituting a predetermined formula into the correction term 2 according to the content of the correction is performed.
  • the correction term 2 is based on the technical literature included in the mixed cluster ⁇ ) ratio: a predetermined amount-the closer the ratio is, the higher the similarity ratio is considered to be the important cluster- Perform correction: ⁇ z.
  • the information processing means 3 8.0 multiplies each correction term of correction term 1, correction term 2, supplementary Calculate sum Put out.
  • the similarity ratio is calculated by dividing by all clusters.
  • Figure 9 shows the setting conditions used for calculating the similarity ratio.
  • Figure 9 shows the first technical texts to be compared: the consecration and the 2nd technical literature; each: The technical literature of the group was decomposed into four clusters.
  • 4 is a chart showing the number of technical documents present in .4.
  • Basic type 1 When the correction term is not taken into account: Similarity ratio f Basic type 1 ')-. Calculation-example. ⁇ Below, the similarity ratio of the basic type without correction term-this type. 1) An example of calculation will be shown. In the calculation example of the similarity ratio (basic type 1), the similarity ratio of the technical literature is calculated by the mixed cluster extraction method.
  • the degree of similarity between the technical content and the degree of similarity is considered to be proportional to the “quantity of mixed clusters”.
  • Equation 1 the similarity between the technical and literature groups.
  • Equation 1 The similarity ratio calculation method considering mixed clusters is defined as 'mixed cluster extraction method'.
  • Equation 1 shown below is the most basic idea. The following: (expression In (1), the ratio of the total number of rasters obtained as a result of cluster decomposition to the number of mixed clusters including the 1st technical literature group and the 2nd technical literature group. ) ::: is calculated with a similarity ratio. Therefore, the method of calculating the ratio of the number of all clusters and the number of mixed clusters is limited to the following (Equation 1).
  • the number of mixed clusters is a numerical value that indicates the number of clusters in the second technical literature group: belongs to: technical literature and technology belonging to the second technical literature group: literature is mixed. is there.
  • the total number of clusters is a numerical value indicating the total number of clusters in which the technical literature of the first technical literature or the technical literature of the second technical literature group exists.
  • the crucial documents included in the first and second technical literature groups are cluster-decomposed using KWA-IPC, etc., and all the decomposed clusters. By calculating the ratio of the number of mixed clusters as the similarity ratio, it is possible to calculate a value serving as a basic part of the similarity ratio between the technical document groups.
  • the number of mixed clusters is divided by the number of all clusters.
  • Cluster decomposition is performed using keywords and LPCs included in the second and third technical literature groups, and the similarity ratio is calculated based on the ratio of the total number of the decomposed clusters to the number of mixed clusters.
  • an index indicating the degree of technical similarity between the technical literature groups can be easily calculated. It was found that the similarity ratio calculated here was in proportion to the degree of similarity between the technical literature groups that we considered as common sense. Also, in the present invention, the value of the similarity ratio to be calculated is within the range of '. O similarity ratio ⁇ 1.
  • a first technical document group with more conditions first:. 2 technical publications group: a: a comparison with the similarity rate, a first technical document group a: 3-technical literature group -It is also possible to directly compare the similarity ratio with the comparison. .
  • Basic type 2 Calculation example of similarity ratio when considering the correction term: (Basic type 2)-Below is an example of calculating the similarity ratio (Basic type 2 ⁇ ) when considering the correction term: ⁇ . -An example of calculating the similarity ratio (basic type 2) is as follows: The above-described similarity ratio: (basic type 1) 'is calculated by adding correction terms 1 to 3 to the calculation example.
  • Equation 1 The most basic (Equation 1) above can be understood from the fact that: For example, many ⁇ 3 ⁇ 4 technology ⁇ : dedication. ⁇ 5> Cluster ⁇ . Technology: ⁇ : Dedicated number-large-small: ; : Due to the drawback that it is not considered., Mixed cluster ⁇ : many-, ⁇ 3 ⁇ 4 technique Even if documents are included, two or two technical documents are not included; no: if. Even if the same similarity ratio is calculated: well, we, common sense. In some cases, the degree of similarity may be different from that of fc.
  • FIG. 10 shows a situation in which a large number of technical documents are included in the mixed cluster 1: FIG.
  • cluster cluster 3 Another cluster (for example, cluster cluster 3, cluster 4) is an important cluster because there are few technical documents, so I think that it is important to compare it with the contribution of cluster 1. h is small. In a situation like the example in Fig. 10, in the case of ⁇ raster l: r: vs. cluster. '2 The effects of cluster 3 and cluster 4 should be neglected.
  • the correction term 1 shown in (Equation 2) is a correction term for calculating the similarity rate according to the technical sentence included in the “mixed cluster”. This correction term 1 is considered to be more important as the amount of technical literature contained in the mixed cluster increases. This is a correction term for correcting the similarity ratio.
  • correction term 1 Conversely, mixed cluster included is technology; 3 ⁇ 4:... ⁇ ; Roh * is, small Les -, degree, not considered to be important cluster ': ⁇ book is Teigu a £ Ru, U: This is a correction term that can be used to correct the similarity ratio with a little respect.
  • Correction term 1 is included in each mixed class. ⁇ . Calculate the first correction value that takes the shade according to the halo; other possible formulas are av and the correction term.
  • the correction term 2 shown in (Equation 2) is based on the technique included in the mixed cluster (the degree of mixing of the technical literature A and the technical literature B (technical literature: ⁇ ⁇ and: Chinese; percentage of the technical literature B):
  • the correction term for calculating the rate is:
  • Correction term 2 is included in the mixed cluster :: How much do you think that it is an important cluster and the similarity is high? 3 ⁇ 43 ⁇ 4Heavy weight: V is a ⁇ correction term that performs weighting and corrects the similarity rate
  • correction term 2 is included in each mixed cluster m :: Hydraulic technique of the second technical literature group.
  • the technical literature of the second technical literature group is mixed with 1. This is a correction term for which a correction value of 2 can be calculated. .
  • the similarity ratio is calculated by calculating the sum of the correction term 1, the correction term 2, or the correction term 3 for all the mixed clusters.
  • the number of technical documents is not biased, it is regarded as an important cluster when the number of technical documents is not biased, and weight is heavy. In this case, it is considered as an insignificant cluster: light: weight: with: suru: ta: no.
  • the correction term 3 is a correction term for calculating a similarity ratio by performing an arbitrary weighting when a particular patent classification or keyword is noticed. 'This term is a term that is set individually by those who compare technical literature groups. Therefore, in this case, the constant "1" is substituted without consideration. .
  • correction term 1 (1) the similarity ratio ⁇ mixed data: technology included in the raster-To capture a large value according to the value of The number of literatures is multiplied ( ⁇ , 0 ⁇ : ct) to the numerator. Then, as the calculation range of 'similarity rate', 0 ⁇ similarity rate d is guaranteed.
  • correction term.1 (1) the normalization factor is placed in the denominator in the formula: .. '
  • the “normalization factor” is placed in the denominator of the correction term 1, which makes it possible to guarantee 0 similarity ratio ⁇ 1. Then, as the normalization factor of the correction term 1 (1), the average value of the number of technical documents in all clusters is set as' It is possible to calculate the amount of literature.
  • each mixed cluster in the case of this embodiment; :: is-cluster
  • Equation 6 when Condition-2 is substituted in Equation 4, will be described below.
  • the amount of technical documents included in the cluster is larger than the amount of technical documents included in the other clusters by the calculation process of Equation 6, the amount of the technical documents is similar to: _; Can be reflected in the calculation result of the rate. It represents almost all of the trends in calculating the cluster Yuka similarity ratio-so we can see that this property of cluster 1 works to determine the similarity ratio.
  • condition 3 the sum of the amount of technical documents included in the cluster is the same as that in the case of condition 2, but in the situation where the amount of technical documents included in cluster 1 is remarkably large since there is no dark at the time of calculating similar: Other:.. W this; ⁇ is extent when the influence of the amount of technical literature is of condition 2 Ru place students .. Ji never have desired Mr.; I. one
  • the value of 0.459 is based on the fact that the amount of technical literature included in cluster 1 is-slightly less than in other clusters: cluster 3; It will be corrected so that it is almost not involved.
  • condition 4 the sum of the quantities of technical documents included in the field and the cluster in condition 3 is the same, but the first technical document group included in cluster.1 And the second group of technical documents are ⁇ end: ⁇ even :; Therefore, it is desirable not to calculate the similarity rate large because the number of technical documents included in the mixed cluster is large.
  • the correction term (1) ⁇ Section 4: There is a possibility that a part that does not match will be generated.
  • the correction-term 2 described below will be useful.
  • Figure 11 shows an example of calculation of the correction term 1 (1) adoption :: ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ (( ⁇ . .
  • Equation 9 The calculation formula (Equation 9) for the correction term 2 (1) shown below is a configuration that performs correction according to the mixing probability of technical documents in the mixed cluster.
  • the probability of taking out the second technical document from the middle of the m (from the group A) and the second technical document group from the second group (the group B) is the power of the probability (however, 0; ⁇ 7) is arranged in the numerator.
  • the similarity ratio calculation range is 0 ⁇
  • m pieces from the first technique, the 3 ⁇ 4saki group j group, the second technical literature The maximum-value of the probability of taking out n technical contributions from the group (group B) is the ⁇ -th power (where 0 ⁇ ) is placed in the denominator as a normalizing factor.
  • the normalization factor may be any term that can guarantee that 0 ⁇ similarity rate ⁇ 1, and the normalization factor shown in (Equation 10) is limited to ⁇ > ⁇ > ⁇ . The following ensures the conditions for setting the index ⁇ .
  • the number of technical documents in ⁇ ⁇ : group and 8 groups was randomly extracted from the technical document groups in ⁇ _ group and ⁇ group. ⁇ degree ”, compared to For example, it is necessary to correct the value of the similarity ratio: in this case, set the index ⁇ to 7;
  • the number of technical documents in Groups ⁇ ⁇ and ⁇ ⁇ included in the mixed cluster is not close to the distribution when randomly extracted from the technical documents in Groups A and ⁇ B.
  • the exponent should be set to ⁇ . ⁇ _ __0 and ⁇ ⁇ 1.
  • the denominator as a normalization factor is (the number of combinations from which technical literature is extracted from the group A: X: individual—, group B: y?) / (Group A 'and :: Group B) From the mixture: the number of combinations that take out m + n technical documents) :: is arranged, so that: X, ..y is the similarity ratio calculation range from each combination of numbers that maximizes the denominator -; Possible to guarantee 0 ⁇ similarity rate ⁇ 1.
  • the molecular exponent ⁇ is set to ⁇ > 1 .: the number of technical documents of the groups A and B included in the -mixed- raster: It is close to the distribution at the time of random extraction from the technical literature group. In addition, it is possible to disregard the distribution of the technical literatures of the groups A and X ⁇ B .:
  • the finger ⁇ _ of the numerator should be set to ..: '. 0 ⁇ 7 ⁇ 1.
  • the mixed probability of technical documents included in 1 is calculated as 0.:40.9. ., Similarly, the percentage of technical documents included in cluster 2 is also calculated as., ⁇ ) .4: 0.9.
  • the value of the correction term 2 (1) of the mixed cluster 2 is also calculated as 1 and-.
  • the value of the correction term 2 (1) is calculated as .1- as shown in the following equation (1.:3), so no correction is made, and the similarity rate is calculated as 0: Is done.
  • Equation 14 describes the calculation result of Calculation Example 10 “2 (when Condition 2 is cut down in Expression ⁇ ):”.
  • Equation 14 shows a calculation example of the mixing probabilities that constitute the numerator of the correction term 2 (1).
  • the normalization factor of the denominator is the maximum value of the mixing probability of the mixed cluster 1
  • the normalization factor is calculated as 0.133 as follows.
  • the normalization factor of microcluster 2 is also calculated to be 0.448. Normalization factor (condition 3, cluster
  • the similarity ratio is calculated as 0..25 by the following calculation.
  • Equation 20 the calculation results of Calculation: Example 10-4 (when Condition 4 is substituted into Equation 10).
  • the sum of the amount of technical documents included in the case of the condition 3 is the same as that in the case of the condition 3, but the technical documents included in the clusters 1 and 2 are the same.
  • the similarity ratio is calculated as follows: 0 ⁇ ; 0— 0 1.
  • the similarity ratio calculated by the above (Equation 24).
  • the mixing probability of the technical literature is much smaller than the maximum value of the mixing probability when it is extracted from the technical literature group A and the technical literature group.
  • the similarity ratio (when condition 4 was substituted) was corrected from 0.459 to 0.001 (when condition 4 was substituted for expression 10).
  • Figure 1-2 shows a diagram of an example of similarity ratio calculation when the correction term 2 (1) is adopted (supplementary: calculation results when the conditions 1-to 4 are substituted for (1)).
  • the technical literature is well mixed: clusters with high mixing probabilities (clusters with conditions that show a large value :) .
  • Correction term 2 (1) Shows a large value of J:
  • a clusterer where technical literature is not well mixed a cluster with a condition that indicates a low value of the mixing probability
  • the value of the correction term 2 (1) is calculated to be almost “0”, which is a small value.
  • the value of the similarity ratio also shows a small value.
  • Figure 13 shows an example of calculating the similarity of the correction terms 1 (1) and ⁇ '( ⁇ ⁇ rub angle ⁇ U »(The correction terms 1 (1) and 2 (1) include the conditions 1 to 4_, Calculation result when substitution is made).
  • the correction term 1 :: (1) and the correction term: 2_ C 1) are added to calculate the similarity ratio. If it is reflected in the calculation result of the rate, in the case: valid- '.:
  • the similarity ratio is calculated using the correction term 1 (1) and the complement E term 2. In addition to correcting the similarity ratio, it is possible to correct the similarity ratio to a small value when the mixture of technical documents is uneven.
  • the: j correction of the correction term is sensitive to the degree of mixing in the technical literature.
  • the correction term 2 (2) is a correction term for correcting the similarity rate in the mixed cluster by using the technical document ⁇ 'ii yi;.
  • the first technical document group (eight: the group:): -. Beauty second _ of Subebun ⁇ group:): Included techniques in the literature number of configuration ratios ⁇ each click 7. .3 ⁇ 4 to: ⁇ : ⁇ ⁇ : technology ⁇ ⁇ The closer the mixing ratio ⁇ m of the number of offerings, the higher the value of the low-grade drug.
  • the numerator is the technique of group ⁇ and group :: the number of technical documents
  • the composition ratio or the mixing ratio of technical documents in each cluster is small. And the number of technical documents in groups A and B, or the mixture ratio of technical documents in each cluster, whichever is greater, is arranged. And the mixture ratio of technical documents in each cluster is the same: the higher the succession rate is calculated, the closer to 1). Further, the similarity ratio can be calculated to be smaller as the composition ratio of the number of technical documents in the groups A and B and the mixture ratio of the technical documents in each cluster differ. -.
  • composition ratio of technical documents in Group A and Group B is calculated as the ratio of the mixed ratio of technical documents in each gluster, so the similarity ratio calculation range.Guaranteed that 0 ⁇ similarity ratio ⁇ 1 Ready to do ⁇ ? :! ⁇
  • the index of the molecule is set to 0 and 1: ⁇ 3 ⁇ 4: The ratio of the composition ratio of the technical literature quantity of the ⁇ : group and the ⁇ : group to the mixture ratio of the technical literature in the cluster When the ratio is large, the similarity ratio can be calculated as follows:
  • each mixed cluster cluster _rata: 1- and raster '2).
  • _ Is the number of technical documents in the first technical document group: (group A).
  • the mixture ratio of the two technical documents in the second technical document group (group B): J is .2: 1.
  • Equation 29 shows the calculation results of Calculation Example 26-3 (when Condition 3 is substituted into Equation 26).
  • composition ratio of technical documents quantity Star 1 mixed Claro mix ratio data 2 is first technical literature group (Alpha group) and the ⁇ because technical document group _ (beta group) And the similarity rate is corrected to be small.
  • FIG. 14 shows a chart of i when calculating the correction term 2 (# ⁇ similarity calculation example 1 &. (2). : ⁇ Mixed class in condition 1 and condition 2 ⁇ 1 "and mixed cluster 2 in condition 3 and mixed cluster 2 in condition 3 are as shown in Fig.9. '.
  • Example 4 It can be said that it is in a state of mixing 4 mixed technique; ⁇ technique: ⁇ offering ratio is the first technical literature group and the first technique: ⁇ offering group eat * If it is close to the ratio). In this case, the effect is to increase the value of the similarity ratio by increasing the value when the correction term is included.
  • the mixed cluster 1 of Condition 3 and the mixed cluster of Condition 4 are in a state where technical documents are not well mixed (the mixed ratio of technical documents in the mixed cluster is The technical literature group of the 2nd technology-document group-the ratio of the number of included technical literature is significantly different from the ratio of the number of included technical literatures). There are i-m. : '
  • the correction term 1) and the supplementary year '3 ⁇ 42 (-2)' are substituted for condition 1 in the formula. Since the similarity ratio is calculated according to the mixture ratio, the value of the similarity ratio in the case of substituting the value of ⁇ 0.25 is similar to the case of substituting condition 1 into (Equation 1). The rate is smaller than the value of 0.5, but the expected value is close: good, good. Gouging: It shows well the similarity of the techniques between the two groups .
  • correction term 1 (1) and complement 2 ( 2 ) use.
  • is substituted into the total calculation ⁇ ;
  • the amount of penn # contained in the cluster ⁇ mixed ⁇ ratio 3 ⁇ 4: similar analog Rate 3 ⁇ 4: Since the similarity rate is calculated, the similarity rate is substituted into condition (2) using the correction term 1 and the correction term (2) _ from the similarity rate 0.5 of condition 2 (without 3 ⁇ 4f3 ⁇ 4J fe3 ⁇ 4 ⁇ fiber)).
  • the similarity ratio in the case of 009 i is calculated as follows: ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ Term 1 and correction 3 ⁇ 4 2 : (2) ⁇ ⁇ ⁇ Calculate the frequency to find the class 1 with a large number of technical documents: ⁇ do ⁇ ; Becomes possible.
  • the first technical literature group included in a cluster (: Group A):, technical literature. Number: Quantity M and the technical literature of the second technical literature group (Group B) .Quantity 'and force: A. Group and It is natural to think that the closer to the expected value when randomly extracted from the group: ( ⁇ (M + N)), the better the mixture. 3 ⁇ 4: (The probability ratio shown in the above (Equation 9), Or the third mixture of the mixture ratio shown in (Equation 25) and -1 ⁇ 2: Definition of the condition.)
  • the first technical technique group ::.
  • (: Group) and the second technical document group (' ⁇ ' group) are mixed.
  • Probability of taking out the technical literature ( ⁇ ⁇ ( ⁇ ⁇ )) :, Mixed class j: Included in: Included: Yes: Number of technical documents (m + n ))
  • the expected value difference between the number of technical documents in (Group A) _ and the expected value is calculated as:: (Equation: 3 JL)-Reference), and this difference is small- ⁇ , almost (0 is higher. Similarity is higher. -. Perform the calculation to make the correction.
  • Equation 31 shows an example of calculating the expected value difference.
  • Fig. 16 shows an example of calculating the term. Waiting difference when substituting conditions 1 to 4 in (Equation 31) above.
  • Equation 3 1 Calculation result by the above (Equation 3 1): ⁇ ;. et al. ⁇ .: To,: A certain number of technical documents in group A and the number of technical documents in group B contained in Expectations when randomly extracting from groups A and B: The longer the fit, the more the fit. It is a good idea to make the value difference a negative number and place it in the exponent part.
  • the expected value difference which is a negative value, is placed in the exponent part by K. This is because when the technical literature of the star has the expected value, the difference between the expected value is equal to 0, and when the index is 0, the correction term value is calculated to be 1; However, because the expected value depends on the size of the mixed cluster, the expected value depends on the size of the mixed cluster, so it is better to divide the expected value difference by the number of technical documents included in the cluster: . '
  • FIG. 17 shows an example of calculating the similarity ratio when .DELTA.4 is substituted for .DELTA.t expression "3" when 0 is set.
  • the correction term 1) and the correction term: 2 t3)
  • the similarity ratio (Arc ;: La'Nuta: Included in .. 1.
  • the amount of the distribution is randomized from the groups A and B.
  • a correction is made to calculate the similarity ratio higher:: L, so the correction terms, 3 ⁇ 4, and ⁇ Capture term ?. (3); Is similar to the case where the condition l— is substituted by using the ratio.
  • condition 2 In the case of condition 2,-, mixed cluster: 1 Y, cluster. 1 2:-to .4 :: compared to and mixed; the number of technical documents included in the current cluster Large: small difference in holding value, mixed cluster Technical literature included in 1 Composition ( ⁇ Effect should be emphasized. If condition 2 is substituted into the formula using correction term 1 (1) and correction term 2 (3), it will be included in the cluster. Calculate the similarity rate based on the number of technical documents and the expected value difference (articles included in a certain cluster 3 ⁇ 4Contribution i (Group A) ⁇ 3 ⁇ 4 Number of documents and second technical documents (Group B ), The amount of similarity is calculated as the closer to the expected value when randomly extracted from Groups A and B, the correction is made.) -(-.3-).
  • condition 4 the sum of the amount of technical documents J contained in the rata is the same as in the case of condition 3, but it is included in the mixed cluster and ⁇ ::: .. 2: fe3 ⁇ 4 technical literature Is not particularly large: mixing degree.
  • the weight of mixed cluster 1 should not be pulled.
  • correction term 1 (1) and correction term 2 (.3.): Substitute the total length ⁇ ! ⁇ : Into the cluster: Calculate the similarity ratio.
  • Input technical information such as IPC, etc.
  • the similarity ratio calculating means includes a first correction value that takes a value corresponding to the amount of technical literature included in each mixed cluster and a first correction value included in each mixed cluster.
  • the similarity rate is calculated by using the correction term 1 and the correction term 2:-In particular, if the similarity rate is corrected by focusing on the mixed cluster: cluster with large technical literature volume, In both cases, the degree of similarity can be corrected to a small value if the degree of mixing in the technical literature is not uniform.
  • the similarity ratio calculating means is in proportion to the power of the individual cluster technical number to the power of ⁇ (however, 0 and ⁇ );
  • a function to calculate the sum and divide by the total number of clusters to calculate the similarity ratio is provided:-so, the number of technical documents in the cluster is large, and there is an important raster ⁇ ? This is possible.
  • the similarity ratio is calculated by means of the technique in each cluster: the number of ⁇ -powers (however, 0 and c) is normalized by the factor of all clusters, etc.
  • .Q— ⁇ similarity ratio ⁇ 1— can be guaranteed.
  • the average value of the number of technical documents _ in all clusters was arranged as a normalization factor, the average value of technical documents in all clusters: Can be calculated.
  • the similarity ratio calculating means the first technical literature group., The probability of taking out-, and the second technical literature group-n technical literatures from: y-th power: :( 'However, 0 and ⁇ ) Correction value in proportion to ⁇ mixed clusters-::: sum-: _ calculation Then, a function of calculating the similarity ratio by dividing by the total number of clusters is provided.
  • the similarity ratio calculation means (m in the group A, and the number of combinations to retrieve the technical literature in the middle of the group) / (with the group A:: 3.
  • the function to perform: is included in the mixed cluster: ⁇ group and: ⁇ group: number of technical documents Depending on the remoteness (act of work), it is possible to correct the similarity to a larger correction value if the bias is large, and to correct the similarity to a large correction value if the bias is small.
  • the standardization factor is m, from the first technical literature group, m.
  • the similarity ratio calculation means the number of technical documents included in the group of technical documents, and the number of technical documents M included in the second technical document group and the technology included in the second technical document group: Ratio,: N / M, and the result of cluster decomposition-obtained: obtained mixed.
  • the composition ratio and the mixed ratio of-and-were also taken:
  • the correction value proportional to the power of ⁇ : (: 0 ⁇ ) was also applied to each mixed cluster.
  • It has a function to calculate the sum total, divide by the total number of clusters, and calculate the similarity ratio, so that the number of technical documents in Groups A and B and the composition of technical documents in each-cluster can be calculated.
  • the ratio index between the composition ratio and the mixture ratio to be:> 1
  • the technical document vocabulary tt of the groups A and B can be compared with the mixture ratio of the technical documents in the cluster. If the ratio is small, the effect of the warmth: ta will be affected.
  • -Dangerous rate The result will not be greatly reflected in the calculation result.
  • the composition ratio of the technical literature quantity of the ⁇ group and the: ⁇ group, and the technology of each cluster The similarity ratio is increased or decreased according to the ratio between the literature and the mixture ratio.
  • the similarity ratio calculating means is: a technical document group obtained by mixing the technical document group of the -1st technical technique with the technical technique group of the 'th. : technical statement:.. the cluster decomposed £ mixed class included skill 'in data on the probability of retrieving the Document; expected values to retrieve the technical literature of the first technical document group by multiplying the number of surgical literature _ calculated, Included in the expected value and the mixed cluster.
  • the difference from the number of documents is calculated as the expected value difference, and the period characteristic ft difference is _arbitrary constant.
  • ⁇ -Ai Calculate the sum of the complementary JE values, which are the negative indices of 1 and 2), and divide them by the total number of clusters. According to the setting of the value of ⁇ , it is possible to make a correction that makes the 5 similar-calculation of the expected value difference: the result—: ;:
  • the similarity ratio calculating means includes: the first technical document group: the first technical sentence: a group of technical documents; Technology ⁇ -The above-mentioned cluster decomposition was performed on the probability of taking out the contribution: was: mixed.
  • the cluster included: The number of technical documents was multiplied to obtain the technical documents of the first technical document group, and the expected value was calculated. Then, the difference between the expected value and the first technique included in the mixed cluster .: ⁇ ; ⁇ group .: Surgery: The difference from the number of documents is calculated as the expected value difference, and the period difference is mixed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

明細書
類似率算出装置並びに類似率算出プログラム 技術分野
本発明は、 技術文献群同士を比較して類似性を判断する類似率算出装 置並びに類似率算出プログラムに関する。 背景技術
従来のパテントマップでは、 特許文献を用いて、 同一又は類似の研究 開発テーマの内容について、 技術比較を行って、 全体的な動向、 分布を 知ることが可能であるとされている。 そして経営者がパテントマップ見 ることによって、 市場動向、 技術動向、 参入企業及びライバル企業動向 、 将来性等の経営判断的要素を分析することが可能とされている。 またパテントマップでは、 A社に関連した技術文献 A群と B社に関連 した技術文献 B群とでマクロ的な比較を行う必要がある場合に、 技術文 献 A群と技術文献 B群に所属する個々の技術文献どう しをミクロ的に 比較し、 そこからマクロ的に技術文献群間の比較を導き出していた。 図 1 9は、 技術文献 A群に含まれる技術文献と、 技術文献 B群に含ま れる技術文献を個々にミクロ的に比較する、 従来の比較状況を示す図で ある。
図 1 9に示すように、 技術文献 A群に記載されている技術に対し、 比 較対象の技術文献 B群の技術とを比較する場合、 従来は、 技術文献 A群 に含まれる技術文献 (特許公報や技報など) と技術文献 B群に含まれる 技術文献 (特許公報や技報など) を総ての組合せにおいてについて、 個 々にミクロ的に比較し、 これをミクロ的な類似率として数値化し、 その 平均や分散を求めることにより、 2つの技術文献群間の比較数値として いた (例えば、 〃パテントマップガイダンス"、 特許庁、 平成 1 4年 8月 4 曰検索参照、 インターネッ卜く http : //www5. ipdl. jpo. go. jp/pmgsl /pmgsl/prags > , 以下非特許文献 1という。)。 特開 2 0 0 0— 3 4 8 0 1 5号公報に記載の知的財産評価装置等に は、 出願中あるいは登録後の発明等に関す^)—知的財産の財産的価値を評 価する知的財産評価装置において、 実施利益に関するデータを入力する 実施利益入力手段と、各年ごとの複利現価率に関するデータを入力する 複利現価率入力手段と、 前記実施利-益入力手段により-入力:された备年目 ごとの複利現価率に関するデーダと.を乗算して、.各年目ごとの捕償金年 額の複利現価率を算出する複利現価算出手段と、前記複利現価算出手段 により算出された各年ごとの補償金年額の複利現価各年ごとに合算す ることにより知的財産価額を算出する知的財産価格算出手段と、前記知 的財産価格算出手段により算出された知的財産価額を出力する出力手. 段とを備えた知的財産評価装置、知的財産評価方法等が記載:されて:いる-. 該知的財産評価装置等では、 登録され 特許と、 それに関連する売上 高や利益などを減価償却して現在残存している特許の資産的価値を把- 握しょうとするものである。 なお Λ 当該発.明では、 各特許の価値の評価: は、 自社評価や他社評価などをランク付けして入力したものを寄与度と して評価し、具体的な実施権設定が.されていない知的財産の資産価値を 算出することが可能であるとされている 6
特開 2 0 0 1— 7 6 0 4 2号公報に-記載の.システム等では、所定 更 新間隔を有する第 1のデータと更新間隔が当該第 1のデータより短い 第 2のデータとから、経時的に変動しうる評価項目を評価するシス.テム. であって、 ( a ) サンプル対象の第 1のデータの入力に応.じて、 第 1の 評価モデルを作成する手段と、 (b ) 前記サンプル対象の第 1のデ^-ダ を第 1の評価モデルに適用し、 第 1の評価出力を算出す:る手段と、.(c— ) サンプル対象の第 2のデータと第 1の評価出力の入力に-応じて、 第 2 の評価モデルを作成する手段と、 ( d ) 評価対象の第 :1—のデータの^ Λ方 に応じて、 当該第 1のデータを第 1の評価モデルに適用し、 第 2の評価 出力を算出する手段と、 (e ) 前記評価:対象の第 .2のデータと前記第 2 の評価出力を第 2の評価モデルに適用し、 当該評価対象の評価出力を算 出する手段とを備えた経時的に変動^うる評価対象の評価項目を評価 するためのシステム、 方法および:記録媒体が.知られ い.る。
該システムでは、 1年単位や四半期単位毎に更新され ¾賃借対照表や— 損益計算書等からの財務データ攀 よ: に.、 -更新間隔が比較的長 第 のデータから算出される格付け 一 や溯産確率.などの企業評孤を行. うモデル (静的モデル) と、 日々: ¾勛 る株報や金利: 為養等の 4:う —: 更新間隔が比較的短い第 2のデ タとの 力に.基づ:き、その後 変化, 予測して動的に企業評価を行うモ:デル (動的モデ /レ) の: 2—つの評価モデ ルについて、 評価対象の企業デ タを適用するこ:とにお .、 :„適畤、 最新' の企業評価を算出することが可能であ:る:と-されて.いる-。
また、 特開平 8— 2 8 7 0 8 1 報、 特開 i 2 0 0 1- :3 7 9, 9 2. 号公報、 特開平 1 0— 7 4 2 0 5号公報、 特開平 8— 2 7 8 9 8 2号公. 報、 特開平 1 1 - 7 3 4 1 5号公報、 及び 開 2 0. :0 1:,— .3 .3 1 -5 ,2 7; 号公報では、 ある文書や文章と類似す 内容—の:文書や文章を検索する際 に、 文書や文章同士の類似度や信憑性が高.く、:高 _精度に類似 書.を検索 することが可能な類似文書検索装 や.類似検索: ステム.等が紹介され ている。 発明の開示
ところが、 非特許文献 1に記載^)ノ テ -ン-ト"^ヅプゃ特開-平 8 - :s a 0 8 1号公報、 特開 2 0 0 1— 3-3 7 9 9- 2:号公-報、 特具平, 1: 0 7. 4 2 0 5号公報、 特開平 8— 2 7 8、 9 8 2.号公報、 特開平 1 1 -. 7 3 4 1 5号公報、 及び特開 2 0 0 1— 3: 3 公報 IE載:^).発明では .; 例えば、 A社に関連した技術文献: A群と : B.社に関連:しこ技術文献. B群 との間で、技術文献に記載されている内容を-マ-ク口的に比較する要求が, あつたとしても、従来は技術文献 A—群 技術文„.献.:&群に;;所.属する個 の 技術文献どうしを個々ミク口的 fej ^較 1;、.そ-の旗 の演-算結果からマ ' 口的な技術文献群間の比較を導き出 でいた ^ 作業効率が暴 、. う不具合を生じていた。 また、 非特許文献 1に記載のパテ 十^;ッ : . 較^お辆 : 同一又は類似の研究開発テーマの ^容 、 的な魏向;や:分雍 赫, ることが可能であるとされているが. 企業;間!において、 Λ 業全体 総薛 術文献を母集団とした各技術の相対的評每を算出する と-がで^ ¾ ν ため、 無形資産の価値評価手法として、 定量的:、 定性:的な赭¾;を得ち机-' ず、 信託や投資の評価の対象、 企業 特許戦略 決め手と ¾る:技術戰鋒 の指標を算出することができない レ 不具合,を'生^ で 。 -.
また、 このミクロ的な類似率を平均 _する計算方法.を用い:るど、 "^えば; 図 1 9に示す場合において、技術文献群 A 技術次献 Β群と 全—ぐ異-な る場合には、 類似率は 0と算出され.?^:また 全^の: &合せで求 た . 均の類似率も 0となるので問題なレ、-: : _う える ;
ところが、 第 1の技術文献群と-第 技術文歡群と-が-まつ こ:く:同 の- 場合であっても、第 1の技術文献群に含まれ:る.技術;文 A1に-対 て 2 の技術文献群に含まれる技術文献.献 1, B2, B3, B4 D ..ミ'クロ.、的な—導 率を 求めると、 2つの技術文献 全ぐ.同一の場食 (A1=B1など) : は Atと ' どの類似率は 1と算出されるが、.それ以外の場合には 舷に類似率が 1 ; になることはない。 更に A1以外の;. Α2、 A3、 Α4などに対する総ての組合 せで求めた平均類似率は、 1とそれ以下の数値の平均となるので、 やは り類似率が 1と算出されることはないという不具合を生じる。
また、 技術文献の総数が数万件:^上: :なる場合 (^よ:うに、:多食 技術 文献どうしについて類似率を算出する-際 jま、全 (^抉術文献の について類似率を計算する必要力 の: ?、顆似率を算出す ¾:ίこ: おつ: ての計算量が膨大となるために、 計範 開が多ぐ必 と、な:^ 類似率^ 計算結果を素早く表示することができない.:^レ、 不具合-を生 !^る - また従来のように類似率を算 するに-あた-:り:、 -調査対象.と-母集団の技 術文献をキーヮードで切り分け、個.々のキー ード 含- れ:.
の数量と、 技術文献の総数との比 を :レ、 dr ^ ^. ^^ - ViC ^ 演算した比率を平均して類似率を募讲 ¾:方法 :は ^ ^7 :^?*^ 性に応じた重み付けを行なわなレ、と、箅出きれる類似率と実際の感覚的 な類似率との差が大きく開いてしまうとい..う不具合を:生:^で:いる ό この重み付けをしたキーワードを用いて類似-率を算出.する際に、 .全キ 一ワードについてオペレータが重み付けを行な て: ソ' ラス辞書を. 作成し、 その重み付けに基づいて類傲率を算 する. -と ^"能で Φ ^ これは理論的に可能ではある:が、 実際に膨大な量のキ 'ヮ'一 :ド..の れぞ れに重みを付けることは結構大変:な作業 £ ( .難の業)
Figure imgf000007_0001
自動化にはそぐわない。 また、 個々の技籍文献毎:に類似率が:算出される—- ことには変わりないので、結局は技術文献词-士をミ:ク:. -的に.比較 _じでい るにすぎないという不具合を生じて.いた
また、 非特許文献 1に記載のパ ^トマップ^は:、パテ^ :トァ;ッ.プ炸 成支援ソフトの価格が、 約 1 5万^ 5 :0万円.程度:でおり、 そ.の:操作に;は.'
、 コンピュータだけでなく特許請求 _の範囲、 図;面等 ¾読み'取る等—高.:度な. 技術力と知識力を必要とする。 特許調査機関で依頼 る ¾^ も :.: 1.件:: あたり 3 0万円以上の費用が必要である 'と;.も.に、約 1;ケ 以 作 時 間が必要となる。
従って、 資本金や開発費の少ないベンチ-ャ 企業等力 S利用する場合.、: . あるいは出願を急ぐ場合には、パテン:ト:マ プの利用 .制限されるこ.:と が想定される。
また、 従来の知的財産評価装置等では:、 製品等の研究開発 i着:^前に: 過去から最近の情報を広く収集して:;、 ':競合他社め技術動向の分析や、 技:' 術レベルを把握する技術動向調査等 (^調査を行い <: 、:と ·ν、:う,:不具合. を生じていた。
近年、 企業価値に占める無形資産 ^タ ブノレ ' セッ 割 合が大きくなるにつれ、無形資産の襄 iB¾¾fe業価値を大き.く左右す^ うになつてきた。
従って、 信託会社は信託の対象に、、拔資家は投賓の対象に 企業^:,知 的財産から産出される利益を重視す-ベぐ:特許戦略:の動向-の対象 -、 ¾そ ぞれ無形財産を指標として用いる義:向 J :ある
しかし従来は、 投資の参考にするため:に:.、 '枝術 - 献 般を用いて 業 の保有す.る無形財産を比較する の適切な堉撢. 在してレ、:なかつ, た。
特に、 生き残りをかけた企業経営におい ;.新規事業参.入や新製^の 開発に着手する前段階において開発費を充;てる:価値 ある技術分野な: のか、 特許出願すベき価値が,ある:の : 騵赛査 Jf求-を:すべき力否か: 、 権利化の可能性があるのか、 ライ ンス突渉 レ:^合 ^利翁率: が高いか否か等の特許戦略を検討す.る」た:めの指標の存在力、 -非常に-重寒 となってきている。
そこで本発明は、 上記従来の状況 j 鑑み,、:伞.業間に-おレ て.、 - .—特.許公報 等に限られない広範な技術 ¾献群同 を比較..し:、. の. _感覚 A 致する.適 当な類似率を算出することによつ',て ; 量的、::定性..的.かつ相.対釣な、無形 ■ 資産の価値を評価することが可能な指標.を算出..する^めの類似率算坩: 装置、類似率算出プログラム並び 類 率算 #1方 择供す ^ h-^ : 的としている。 - また本発明は、第 1の技術文献群と第: 2_の技術文献群とが全く違った ときだけは類似率が 0と算出される .と.もに、::第 Lの翁辨文献群と第 2·. の技術文献群とが同一のときだけは類似率が 1 算出されうる ので あって、 大量で時間のかかる計算を.必要とせず、 分析者の恣意が混入す ることによって算出される類似率の値 変わ:.る可能性が少な:く:、一第 Πの- 技術文献群と第 2の技術文献群と 間で ク口的な獰.似性 較結果: を算出することが可能な類似率算出装置、 斜率算 ^ ^餘^ 類似率算出方法を提供することを.目的と:.レて 、る。
また本発明では、 比較する技術文献の総翁が魏 件^上-とな:る場合で: あつても、比較的短い計算時間で類似率:を算出 る と力. s可能.な聚 ί 算出装置、類似率算出プロ ラム並びに類似 算出方法を提供すること を目的と-している。
また本発明では、 技術文献群同'士 マ:クロ—的に比:較 る ^可能な 類似率算出装置、類似率算出プログラ' ^並:ぴに揮似率算:出 法を-提翁す ることを目的としている。 また本発明では、無体財産により '企業価値.'を:見極める要求のある投資 家等や一般の実務者にも容易に极:うことが可能な類似率算出装置、類似 率算出プログラム並びに類似率算出方法を提供する.こと-を目的としで いる。
―上記課題を解決するために.本発明〖ま、'特許:. :献又 ίま技報等:の技術'交轉 から構成される第 1の技術文献群 第 ; の技翁 献群.との技術 -的.な 似性を判断するための指標を算出する類似率算;出装:置であ て'、 . ヒ較対: 象となる第 1の技術文献群及び第 2-の技術: 献群を入力する技術文献 群入力手段と、 キーワードや I P C :"どの-.技攀情報を^力す-る技術情報 入力手段と、 第 1の技術文献群及び第; 2:の技術.文:軟群 食ま :れ.る-技:術文 献について前記入力した技術情報を含む技術^献を検索.レて該検索 だ技術文献をそれぞれの技術情報毎にタ- タニ分解するクラスタ:分解 手段と、前記クラスタ分解した結.果得られた全ク:ラ:んタ数-:と.第 1:の技術 文献群及び第 2の技術文献群の双方の技術文.献を含む混在クラスタ数 との比を類似率として算出する類似率.算出」手揆^、前記算出 た類似率 を記録手段、 表示手段、 又は通信手—段に出 する出力手段とを.備えたこ- とを特徴とする。
また上記課題を解決するために本発明は、:,ヒ較对象と.なる:第 1の:技 J¾ 文献群及び第 2の技術文献群を入力す」る: '技:術文錄群入」力手段「と:、 キ. ードゃ I p cなどの技術情報を ^力:する:技術f報入力手.段と、'第 技 術文献群及び第 2の技術文献群に含まれる技術文献 Λ、て. tft記 力: した技術情報を含む技術文献を検索-し^該検索!^た技術^献をそれぞ」 れの技術情報毎にクラスタ分解するクラスタ—分解手段.と,.、-前 1¾クラ,ス: 分解した結果得られた全クラスタ.数と第 1 ; 技術: .献群及び第 % J 術文献群の双方の技術文献.を含む浪在 ス 数を算出'するとともに、 各混在クラスタに含まれる技術^:献 暈に応じこ値を取る第 1の補正 値と各混在—クラスタに含まれる第 1 (^技術文献群の _技術文献ど第 r2の: 技術文献群の技術文献との混ざり袅合! £応 値.を取る蒸: 2の擁正値 とを乗算したものを各混在クラスタ::につレ、 韆和を算- -し、前記算出し だ全クラスタ数で除算して類似率を.算 W る.輯似:率算出:手段と、 -.前記'秦 出した類似率を記録手段、 表示手 、 又は通信手段に.出力する-出 手—段. と 備えたことを特徴とする。
また上記課題を解決するために本発明-は、比較対象となる第 1 ·の技術 文献群及び第 2の技術文献群を入力 」る: 鬼文献.群 Λ力-手段,と.、'キ: "ヮ ードゃ I P Cなどの技術情報を入力 る.我:術情報入力手— と、第: 1 技: 術文献群及び第 2の技術文献群に食まれる-技術-文献に い: 前記 カ した技術情報を含む技術文献を搀率レて該検索 た技術文献をそれぞ: れの技術情報毎にクラスタ分解するクテ —分解手段と-、.前記クラスタ二 · 分解した結果得られた全ク スタ数と.第 の:技術文献群及 第, :2 (^技. 術文献群の双方の技術文献を含 混在.クラ^タ数を導出する !) ¾ . 個々のクラスタ内の技術文献数の—α.乘- (,i¾ <¾ -) _に¾例レ 補; 値を各混在クラスタについて総和を .出し、.全グラスタ,数で!^算 :て:類: 似率を算出する類似率算出手段と.、 前記:算出-レた類似率 記録手殺、 表: 示手段、又は通信手段に出力する出力-手 ^と: 備.—ぇこ: と—を 徴 す δ また上記課題を解決するために.本発明 、比: 対象となる第 1の技術 文献群及び第 2の技術文献群を入力; ;.る」技:術 鬼群入力手段:と、 -キ _ー , ードゃ I P Cなどの技術情報を ,力中^!.焚锻情報 ^力手.段 、第ユ ^)技. : 術文献群及び第 2の技術文献群に含まれる技術^献 、て:前記 Λカ した技術情報を含む技術文献を検赛 ^該検索 た技術: 献をそ ¾ぞ3 れの技術情報毎にクラスタ分解 1:る ラ ^分解手與 ir前 |5- rn ^ ^一 分解した結果得られだ全クラスタ数 ^箄 技術文献群 2; 挟: 術文献群の双方の技術文献を含む:混在.ク-:ラス: 舉あ算傲す:る と.も: i : 個々—のクラスタ内の技術文献数の (伹し; 0ぐ ) :を .^ S ^ 内の技術文献数の平均値等の規 伥頃子で除算 fe ^補 IE値 ¾各 タ . ラスタについて総和を算出し、全汐 ス 黎で餘算レて類似率を算出す.; る類似率算出手段と、 前記算出 似率を記録手 表示手段 翼 ; 通信手段に出力する出力手段とを備 た:こ ^特徴ど また上記課題を解決するために.本発明は、'比較対象となる第 1の 術:: 文献群及び第 2の技術文献群を入力する:技術文献群入力:手段と.、 ^ワ. 一ドゃ I P Cなどの技術情報を入力す,る技術情報 ¾手.段と;第 1の技 術文献群及び第 2の技術文献群に含ま _れる _技術.文献 ついて前記入 した技術情報を含む技術文献を検索.して—該検索 技術文献をそ ぞ れの技術情報毎にクラスタ分解す.るグラスタ'分解手段;: 前記 π タ- 分解した結果得られた全クラスタ数: 第, l 技術文献群: 第 術文献群 双方の技術文献を含む混在:ク:ラ タ数を -算出するとと に、: 前記クラスタ分解した結果得られた提在クラス:タに含まれる第 の技- 術文献群及び第 2の技術文献群の.技,術文献数の滅.率 応じて補正す.:る- だめに、 第 1の技術文献群の中から. m個 第 :2の技 _術文献群:の:中 個の技術文献を取り出す確率の 乗 (伹し V 0 <: γ ); ; tt例 た捕 E値 を各混在クラスタについて総和を:算出レ、前記算出し;た全クラ 'タ ' 除算して類似率を算出する類似率算:出芽段と、前記算「出 .した頻似率 ¾ ¾ 録手段、 表示手段、 又は通信手段に 力する出:力手:段 :とを.備 φた とを 特徴とする。
また上記課題を解決するために本発明は、 比較対-象となる第- 1 .の:技 文献群及び第 2の技術文献群を入力する技術^:.献群 力ま:段と キ ^. ードゃ I P Cなどの技術情報を入办する拔術情報入'カ^^と ^第¾ 技- 術文献群及び第 2の技術文献群 含まお:る:技術文献に:つ: ヽ: 前 1& 力: した技術情報を含む技術文献を検索 で载検索 ^ ^ ^ ^. れの技術情報毎にクラスタ分解する スタ::分解手:段—と:、前記'クラ タ 分解した結果得られた全クラスタ数と第 の茶術.文敝睡及び第 2.- 技 術文献群の双方の技術文献を含む^ &: ス;タ数 算 す:る と:
前記クラスタ分解した結果得られこ'混在クラスタに含まれる第'! Φ . 術文献群及び第 2の技術文献群の;技術文献数 :確舉 じて雄正. I ために、 第 1の技術文献群の中から m個; 第 2 '(^技 ί¾;献:群?).中から-- 個の技術文献を取り出す確率の γ乗 (:但 ¾ 0 ¾ .を瑭格化因チで;除 : 算した補正値を各混在クラスタに^い :総和-!:.算 -出¾^-前 :!£算出 クラスタ数で除算して類似率を算出 る慕似率幾出手段と、 Ϊ前記算:出; た類似率を記録手段、 表示手段、 は'通信 殺に 力する出 手 とお 備えたことを特徴とする。 また本発-明は:、 前記'規将化因 .を:;:第 1の技 術文献群の中から m個、第 2の技術文-献群の中か n :個^技術文献を取: り出す確率の最大値の γ乗 (伹レ J0L を特徴 ' る。
また上記課題を解決するために本発明は、 :比較対.象-となる第 1 ©技術. 文献群及び第 2の技術文献群を入力する技術文献群 力.手 ど、 :一 一ドゃ I P Cなどの技術情報を入力する 術情報入力手:段と、:第 1嘛 術文献群及び第 2め技術文献群に含:まれ;る技術 .献 . い ^Γ .祯記 ^力 . した技術情報を含む技術文献を検索 て、 ¾該検索おた技術文献,をそれ¾ れの技術情報毎にクラスタ分解- る ラ 解手段と 前記グ タ; 分解した結果得られた全クラスタ数 第 1の技術文献群及び第 ¾技. _ 術文献群の双方の技術文献を含む绲在クラスタ:数を'算出する-とと:も 、 7「 第 1の技術文献群に含まれる技術文献数 と:第 の技術 飾群 :^ま- れる技術文献数 Nとの構成比、 と-、 記クラスタ分解した結果得 られた混在クラスタに含まれる第 技術文献群 技術文献数 πι, 第一 2の技術文献群の技術文献数 nの混 ^^ ぉ ½ ; 摴威 比と混在比との比を取ったものの ζ ぐ . : 姚じ¾¾¾ 値を各混在クラスタについ:^総和 集出 ;:前記算出 た^:ラ ^数: で除算して類似率を算出する類似 条揆と 前1¾算^ 類似率を - 記録手段、 表示手段、 ¾は通信 段1 求 出力;手段と ^俊え こ:と を特徵とする。
また上 Is課題を解決するために * ^明;は、 比較対象 な.る^ 1 技!^ 文献群及び第 2の技術文献群を入 ¾す 技術 献群 力
Figure imgf000012_0001
ードゃ I P Cなどの技術情報を入力 る ¾術1$¾人 ^ と 第 1 技 術文献群及び第 2の技術文献群^含まれる技術 'で前記:; カ^ した技術情報を含む技術文献を検索 該檢索:^た 文献.をぞれ れの技術情報毎にクラスタ分解す:る 分解系段と:、 -前記クラ : 分解した結果得られた全クラスタ数と第.1 '抜 文献.群及び _第 2Lの技 術文献群の双方の技術文献を含 ¾海牵.ク . 奪を算^するとと ¾»に、 第 1の技術文献群と第 2の技術文 群:^を ji.食 Ujfe技術文漱群の;!^ ら、 第 1の技術文献群の技術文献を取り,:出す確率に、 前記: .ラ. .タ:分解- した混在クラスタに含まれ.:る技術文献黎を:乗':箏 第1 技術^:静群 の技術文献を取り出す期待値を算出し、前記期待値と混合クラスタに含 まれる第 1の技術文献群の技術文献 ¾と.. .差き期樣値,差と, .て算出し、 . その期待値差を任意定数 (但し、 ! < の.負 指数: 補正槺 各混在クラスタについて総和を算.出 -、:前記箅. した全クラス:.タ教で険 算して類似率を算出する類 ig率箏 手段と、剪 |E算出:じた菊似轰を記舞 手段、 表示手段、 又は通信手段に m る:出 段と:. 備え こ : 徴とする。
また上記課題を解決するため 本発.明...は、:, 較 象と. 第:1の,技術/ 文献群及び第 2の技術文献群を入力する技術.文献群入力 .段 、..^ .- ードゃ I P Cなどの技術情報を入力する :技 情報 Λ力 段 .、第 1. :技 術文献群及び第 2の技術文献群に含まれ.る ¾.術.'文 について前 J&入力 した技術情報を含む技術文献を検索し—て V:該検索した技術-文献をそれぞ_ れの技術情報毎にクラスダ分解するクラ .タ分解.手 .と 前記ク:^ 分解した結果得られた全クラス 擎と第. L 抉辨^: -献群 ¾び第2 技 術文献群の双方の技術文献を含む ク タ:数を紫出す.る: と,:お 、 第 1の技術文献群と第 2の技術 ¾献群と 氣舍.し fご技 _術文- 群の ら、 第: 1の技術文献群の技術文轉_を取:り:. (±} 率: 、.前 ス :分解 した混在クラスタに含まれる技術.文難寧を季算して第 1の技術文献群 の技術文献を取り出す期待値を算! ^し mmm m.t混合ク タ まれる第 1の技術文献群の 術文献数との差を:期待値差と: —て算出 、— その期待値差を混在クラスタに含まれ
Figure imgf000013_0001
も..の:を: 任意定数 ί但し、 1く の食の:指舉と た練 ¾Ε{ϋとし r" れ 缛 在クラスタについて総和を算出し、 ¾ 前! ^算 iij 舍クラ 熬 除 算して類似率を算出する類似率算出手 .と;、 -前 E算出-:した類似.率-を記録 手段、 表示手段、 又は通信手段に出力する出-力手段と;を備えたことを特 徴とする。
本発明によれば、特許文献又は技報等の技術文献から構成さ.れる第 1 の技術文献群と第 2の技術文献群と^技術的な類 性を判断 る め の指標を算出する類似率算出装置で:あ- て; 比較対象となる第.1. 技術 文献群及び第 2の技術文献群を入力する技術文献群入力手段 :、:キーヮ 一ドゃ I P Cなどの技術情報を入'力す'る:技術情報入力手段と .第. の技 術文献群及び第 2の技術文献群に含まれる技術文献に' て前記 '入力 した技術情報を含む技術文献を検索して該検索した技術:文献をそれぞ れの技術情報毎にクラスタ分解ずるク ヌタ^^?^段ど、前 グラ: ¾ 分解した結果得られた全クラスタ数と第 1の技術文献群;及:び.第-: 2,の技— 術文献群の双方の技術文献を含む混在クラスタ数との比を類似率とし て算出する類似率算出手段と、 前記算出した-類似率を記録手段、 表;示手 段、 又は通信手段に出力する出力手段どを備えたので、 その.分解:.した全 クラスタ数と混在クラスタ数の比に基づいて、技術文献群に IB載され :; いる技術内容の類似性を示す指標を簡便に算出す.る'こ'とが可能と.な:る。: また本発明によれば、類似率算出ま段に各混在クラスタ:に含まれ:る _技 術文献の量に応じた値を取る第 1の補正値 各混在 _クラスタ:に含ま:れ る第 1の技術文献群の技術文献と第 2の技術文献群の技術文献と 混 ざり具合に応じた値を取る第 2め補正値;と.を:乗算 だ の 、:各.混在 ラスタについて総和を算出して、,^:クラ タ数 除窠 顥似率を算 ¾ する機能を設けたので、補正項 1の存在により混在クラ ^タに含ま .る 技術文献の量に応じて重要度が高いこ を意味付ける補正が可能..とな るとともに、補正項 2の存在により.混在クラ タに含まれる技 _術文献の 割合が所定の量に近い程、
Figure imgf000014_0001
値を示すように重い重み付けをじて、 類似-率の農出'結果を、 より人の感 覚に合うように補正することが可能:どな 。
従って、捕正項 1及び捕正項 2 :を:用-いて類:似率を算:出 る と Jこお て、 技術文献数量の多い混在クラ :スタを重要視.じ 類似:率を補 する : ともに、.技術-文献の混ざり具合が不. 場合 は.、 類 ^率を 7』、ざい篩· に補正することが可能となる。
また本発明によれば、類似率算出手段に個.タ クラス-タ内 .技銜; ^献 数の α乗 (但し、 0く α) に比例した捕正値を爷缛在クラスタ.に :い _で, 総和を算出し、 全クラスタ数で除算 て寧 率を算 ;する機能.を^け^.. -. ので、 クラスタ内の技術文献数が多レ.):ほ 拿要なク , タ'であ とする ような類似率を算出することが可能となる。
また本発明によれば、類似率算出手段 傾々—の ラスタ内の技術 ^献 - 数の α乗 (但し、 0く α) を、 全ク スタ数等 (7)規搔化,因子で晚寧 て 類似率を算出する機能を備えたの,で、, .≤靜俾率 1 -.-を保 する と が可能となる。 また、 規格化因子と . ^えス .内の .術文献数の ;平 ' 均値を配置したので、全クラスタ内の技術文献数の 均镢を碁準 技術文献の量の多少を算出するこ が可能 な
また本発明によれば類似率算出.手段【こ、.第 - の技術文献群の中か: fern . 個、 第 2の技術文献群の中かも n個の技術 軟_を¾り出す確率の 乗-- (- 但し、 ひ < γ) に比例した補正値を各混在ク:ラ タについて総和を算出- し、 全クラスタ数で除算して類似率を筹出する機能を設けた。 すな ち; 、 類似率算出手段に (Α群の中か ηι個、 Β群の中^ η個の技術文 を取り出す組合せの数) Ζ· ( A群と 群と.を混^合.おせ:た:中か.ら 十' 個の技術文献を取り出す組合せ数)'を翁子に ffigし fこ^算^行なう構能, を備えたので、 混在クラスタに含まれる A群及^ 群 抹術 ^献数^)偏 り (作為性) に応じて、 偏り大の場舍 きレ:、禅 Ε値に、 小 < 場合-: は大きい補正値に類似率を補正す 可能 ¾る。:ま.た、..規咚化因:: 子として、 第 1の技術文献群の中^^ m個,、 _第 ¾術文献群 φ :^ : n個の技術文献を取り出す確率の最^値の γ乗: (但し、'.0く )」-を配置 したので、類似率の算出範囲としで 0≤類^率 ¾ .¾保証する :と.が— 可能となる。
また本発明によれば類似率算出手舉に、:第- 1'の ^^:献群こ含ま 1る- 技術文献数 Μと第 2の技術文献群-に含まれる技術文献数 Νとの構戒比;' ― N /Mと、 クラスタ分解した結果得られ ラ 'タ ;翁 1 の技術文献群の技術文献数 mと第 2め 術、文献群の,拔術: 献数 nの混 在比、 n / mとについて、 更に構成此: 混 比:とめ比.を取^た.もの ζ : 乗 (但し、 0く ζ ) に比例した補正値 混在クテスタに ぃて.総称を: 算出し、 全クラスタ数で除算しで.類似率 算出する機能を備え で、 I, Α群と Β群の技術文献数量の構成-比と:各グラズダ内 お る技傷文截 同士の混在比が同じであるほど類似 :高:.く算出する _( 1:に近づ る):; ことが可能となる。
また、 構成比と混在比との比の指数 を' ζ > 1 に設定するこどに よって、 Α群と B群の技術文献数量の—比:ど:、 .各ク. 'ラスタ.内に:お:ける! ¾術 文献同士の混在比との比が小さい混 ϊ ^クラ ,タの影響を、:類似率の算 1±1 結果に大きく反映させないようにする が可能どなる。:
また、 指数 ζを ζ = 1 に設定す:ることによつて、 単純に. AJ と Β 群の技術文献数量の構成比と、各グ': ¾スタ內における-技術文献同士—の:混: 在比との比に応じて類似率を増減させることが可能どなる。:;:
また、 分子の指数を 0く ζ く 1 Jこ設定することによ 、^群 群の技術文献数量の構成比と、各ク スダ内における技術文献伺士:の j混 在比との比が大きい場合に類似率,の.算出結果に対する影響を少なく ることが可能となる。
また本発明によれば類似率算出手段:に:、:第 1:.の技術文献!^と 2. 技- 術文献群とを混合した技術文献群 :中-から第!;. :技術文献歌の技裉文 献を取り出す確率に前記クラスタ分解した混在.ク.ラスタ こ含ま る'技 術文献数を乗算して第 1の技術文献群の'技術文献 取:り出す期待値:を 算出し、前記期待値と混合クラスタ:に含まれる第 :技術文献群の技術 文献数との差を期待値差と:.じて算出じ'、1 ^待値差を任意定数 ii? し、 1 < | ) の食の指数とした補正値を、 各混在ク.ラ:スタ. ついて 和 を算出し、 全クラスタ数で除算しで類似率と算出するようにしたので、 aの値の設定に応じて期待値差に対する類似家の.算 ta結果を敏盧 応させる補正を行なうことが可能: なる また本発明によれば類似率算出-手段,に..、 第 の技術-文献群と.第 2 技■ 術文献群とを混合した技術文献群の'中:おらニ第 ϊの技;術文献群の技術文: 献を取り出す確率に前記クラスタ—分解した混在ク-ラス .に'含まれる-技': :術文献数を乗算して第 1 の技術文献群の技術文献を.取り .¾!す期餐-値を 算出し、前記期待値と混合ク ス:タに含まれる第-.1の,技術文献群の技 お 文献数との差を期待値差として算出し その期待値差を混在グ スタ Jこ. 含まれる技術文献数で除算したも .を-、 ;任意.定数 . .(但し:、 1.ぐ: ) の': 負の指数と.した補正値とし、 これを各混 タラ ;タについて総和を算出 し、 更に全クラスタ数で除算して類似率と算出す.る.ま 〕に た:
の値の設定に応じて期待値差に対する類似率 算 ¾結果を敏感: ¾ 応, させる補正を行なうことが可能と. -なる。 . 図面の簡単な説明
図 1は、 本.発明に係る類似率算出シ テムの:全-体第成図である。
図 2は、 本発明に係る類似率算出装置のブロジ「ク図 ある
図 3は、技術文献 A群と技術文献 B'群に含まれる'技術:文献の構成-を示す.': 図である。
囪 4は、 類似率の表示処理を示- 1:フ口 チヤートである o
図 5は、 類似率算出のための入力画面 表示:例:を示す図である。
図 6は、算出した類似率を利用者に通知,する領似,率表示 '画面 Ϊの表示例 ¾ 示す図である。
図 7は、本発明に係る類似率算出装置:を用いて技術文献群をクラスタ: 解した後の各クラスタの構成を示'す,図: ある - .
図 8は、 類似率の算出処理を示すフ.ローチヤ. .トであ—る。:
図 9は、 類似率の計算に用い 'る設定条件を示す図表で る :ό
図 1 0は、混在クラスタ 1には技術文献が多く
Figure imgf000017_0001
図である。
図 1 1は、補正項 1 ( 1 )を採用した.場 i合の類似率算出例の ¾表 ある - 図 1 2は、捕正項 2 ( 1 )を採用した場合の—類似率算出例の図表 る^ 図 1 3は、 補正項 1 ( 1 ) 及び補正 2:.:: (ί'Φ :.の; ¾方:を採用:し 場合?) .. 類似率算出例の図表である。
図 1 4は、補正項 2 ( 2 )を採用 た場合の.類似率算出:例 図表であるお ' 図 1 5は、 補正項 1 ( 1 ) 及び補正項 2 ..(L.2 ) を採甩した場合 類似率 算出例の図表である。
図 1 6は、 (式3 1 ) に条件 1〜:: 4を.代.入し'た:場合の期铮値差の—算 例 を示す図表である。
図 1 7は、 ξ = 1 0とした場合においで:、.(式: 3 :2 ) 4こ:条件 1 4 ¾. 入した場合の類似率算出例の図表である:。
図 1 8は、 補正項. 1 ( 1 ) 及び補正項 2— (: 3 ) を採用: た場合の類似率 算出例の図表である。
図 1 9は、 技術文献 Α群に含まれる技術文献と、 技術文献 B群に含まれ る技術文献を個々にミクロ的に比較する:従来.の状況を示す図である。 一 発明を実施するための最良の形態:
■ 図 1は、 本発明に係る類似率算出シス ム :の全体構成図である。.
同図に示すように、 本発明に係る-類似率算出システムは、 技術文献デ ータベース 2 0から通信網 1 0を介して、 :類似率の算出 必要な:技術.文献を読み出して、 類似率を算出レ 表示す ¾羝似率算出.装置 3 o 信網 1 0を介して各社の技報や、 出願.済みの特許公報、 実用新案^報等' の特許文献を含む技術文献を記録する技術文献データベース 2 0とが 設けられている。
通信網 1 0は、 インターネッ I等の.通信:網でおつて、.類似率:算. 装 :
3 0が通信網 1 0を介して技術文献デー .!^ ス: 2 Qか 特許 ¾献等- の技術文献に関する情報を取得することが可能とな て 'いる ¾ - 類似率算出装置 3 0は、利用者から比較対象:の技術文献群に.隨申る:情:' 報や、 文献どうしの比較条件を入力し、技術文献データベース 2 0から 通信網 1 0を介して、 類似率の算出に必要な技術文献.を読み出し 、 ϋ類、 似率を算出して表示することが可能と'なって 、る。' 図 2は、 本発明に係る類似率算出装置のブロッ 'ク図である。
同図に示すように類似率算出装置.3 -Ό:め情報送受信部には、 公衆回線 又は通信ネッ トヮ一ク等の通信網 :3 6 を介して 技術文献データ. . ス 2 0等の他の通信機器と情報の送受信を行な-ゔことが可能な送受信」 手段 3 6 5 (技術文献群入力—手段 技術情報:入力.手段、 又は出力手段の 機能を含むものであってもよい):が設-けられている。
送受信手段 3 6 5は、 技術文献デニタ:ベ ス 2 :0から通信網 1 0を介 して、類似率の算出に必要な技術文献を取得することが可能となってい る。
また類似率算出装置 3 0には、:利用者,から此較対象の技術文献群 (に関— する情報や、 文献同士の比較条件を入力す.る:キ ポ ド、 マウス等の入 力手段 3 7 0 (技術情報入力手段の機能を含む のであって: よレ、0 :が. - 設けられている。
また類似率算出装置 3 0には、 入力手段 3 7 0を介して入力した各種 情報を読み取って後述する情報処理手段 3 8 0に伝達したり、情報処理 手段 3 8 0からの指示に基づいて L E D,.等に表示指令を出力する.. 力 インターフェース 3 7 1 (技術情報入力手段の機能を含むものであ' て- もよい) と、 画像や文字等の情報を表示-する.表示手段: 3 .7.2 . (出力手段 の機能を含むものであってもよい :と :情報処理手段.3 8 .0の指令に,基 づいて表示手段 3 7 2に対:して表示 '用の画像信号を出力する表示ィ. ターフェース 3 7 3 (出力手段の機能を含むもの:であ て:もよい) と . 設けられている。 なお、 入力手段 3 7 0.は-、 - キ ボードやマウスに限ら ず、 タブレッ ト等の入力装置を含む の.である。
また類似率算出装置 3 0には、記録媒体 3 7 7を着脱可能に装着する 記録媒体装着部 3. 7 8と、 記録媒体「3 7 71こ対 て各:種精報を記録:した り読み出したりする記録媒体ィンターフエ二ス 3Γ7 9 (技術文難群入力: 手段、 技術情報入力手段、 又は出力手段の機能を含むも :のであってもよ い) とが設けられている。 なお、 記録媒体: 3 7 7は :'メ' リ 力 ド等 の半導体や、 M O、 磁気ディスグ等に代表され :磁気記録式、 .光記録武 等の着脱可能な記録媒体である。
また、 類似率算出装置 3 0には、:類似率算出装置.3 Ό 全体の:制御を 行う情報処理手段 3 8 0と、 情報 ¾¾ 3 8 0·にて寒行される:;ズロズ ラムや各種定数が記録されている R:OMや情報処理手 3 8 0が処理. を実行する際の作業領域と-なる記錄手;^であ.:る AM:とか'ら構:成さ.れ るメモリ 3 8 1とが設けられてレ) §。:
また、情報処理手段 3 8 0 (クラスタ分解手段、又は.類似率算 手段). は、 利用者から比較対象の技術:?:献群に開する情報や、^^献同 比較- 条件を入力し、技術文献データベース 2 0から類似率の算出に必要な技 術文献を取得し、記録手段 3 8 4 ^記録:されて1: る類_偶率の:演算: 1?グ ラムや類似率の算出処理プログラムに ¾づいて 技術文献同士の類似率 を算出する機能を実現すること^可能となつて る o^ *た、 ::類似:率 募 出結果を表示手段 3 7 2に表示する:機能 裏現することが可能となつ ている。
なお、 情報処理手段 3 8 0 (クラ ^分解手段 は、 r文書内の 請求- 項、発明の詳細な説明、図面の簡举な説:明、要約などに含:ま'れる言-葉. ('単:. 語、 熟語、 名詞、 動詞、 助動詞、 形容詞、-副詞、 助詞など) からなる; を分かち書きしたり、 1宇、 2 な.ど機械的 切り出 て技銜文孫を検 索し、該検索した技術文献をそれぞれ S術情報毎:にクラ.'スタ-分:解卞る.:. 機能を実現することが可 とな てレ
また情報処理手段 3 8 0 (クラス 分解手段):は、 書誌事項な; 食 · : まれる項目 ( I P C等の分類、 願 、 '出願番号、 出願 名、 . ¾明者.、 ' 審査請求の有無、 補正の有無、 国内優先の有無、 -外国出摩. c : i|絶:.' 理由の有無、 登録日、 登録番号、 な ):: 用 ク^ス-タ分解す ¾機能: を実現することが可能となっている。- また情報処理手段 3 8 0 (類似率:算^手段):は、-::クラスタ分解 'た結 果得られた全クラスタ数と、 第 tの技術文献群及.び第 2.の技術 ^棘群の-: 双方の技術文献を含む混在クラスタ数との比を算出するなど: υて 拔術 Ί 文献群同士の類似率を算出する機能を実現す.ること:が可能とな .てい. る。
これらの全ての処理を情報処理手段': 3 8 :Όが実行 :る; f ねり 、.複数 の処理装置に分担して実行するよゔにしでお本発明の目的を達减 る ことが可能である。
また、 類似率算出装置 3 0には;」類似率算 K装置 3^ 0 :処理に関 る : 各種定数ゃネットヮ ク上の通信機器に通信接続 る:際の属性情,報: y
R L (Uniform Resource Locators)、:ガ—一ト' - ニイ:情報、 D N S (Domain Name System) 等の接続情報、 企業の経営に関する情報 .特許.に関する, 情報、 特許文献、 技報、 キーヮー屮 ' 技術情報等の各種情:報を記録する: ことが可能なハードディスク等の記:錄手段: 3: 3 -4、と:; |5録¾;:3 8 記録されている情報を読み出したり.記録-手段 3 8. 4に对して情報-を書 き込む処理を行う記録手段ィンタ フ ー:ス 3ϋ- : (技術文献群-入-力:手 段、技術情報入力手段、又は出力手段..の機能を:含むも.'の'であ て.もよ ヽ) と、 時刻を刻むカレンダ時計 3 9 .0.とが設けられている。
類似率算出装置 3 0内の情報処理手段 3Έ: : 表示.イ^ター.;ヌ^! ス 3 7 3、 メモリ 3 8 1、 記録手段イン ^ r'フ ^ : 3 8 :、 力 : ?ダ 時計 3 9 0等 含む各周辺回路はバス 3 9 9 接続.され おり 情银処 理手段 3 8 0にて実行される処理'プログラ^に基づいて各々:の周.辺回 路を制御する機能を実現することが、可能:'とな¾で る。
前記送受信手段 3 6 5、 記録媒体:インタ フ :ー -3 ·7':9、、 記録手段 インターフェース 3 8 5等の技術情報入.力..手段は; ί;比較対象とな-る.第 の技術文献群及び第 2の技術文献群を入力する^とが可能とな い る。
前記送受信手段 3 6 5、 入力手段 3 7 0.·; 入办ィ:ンタ フヱ,ース :7 1、 記録媒体ィンターフェ ^-ス 3 '7: 9 記録手段インタ エ ス^ 8 5等の技術情報入力手段は、 キ一ヮ ドゃ ·Ι Cなどの技術情報;を ζ¾¾ することが可能どなっている。
前記送受信手段 3 6 5、 表示イ タ ^ェ:" 3: 7 記録 :手殺^^ン ターフェース 3 8 5、 記録媒体イ^ ヱ.ース: 3 7 9、;プリ' 4 ンターフェース等の出力手段は、.類似率算出手段が算出した類似率を、 記録手段、表示手段、又は通信手段に出力す.る:ことが可能 .な -て:い-る:。.. 図 1に示したデータベース 2 0·は:、:, |¾録手段.3 : 3 4に記憶され: Γいる: 場合や、 C D— R O M、 C D— R:W、- D-^p -、 M O等の記憶媒体 3 7 7 で提供される場合、通信網 3 6 4を:介 で典 信.機器から、取得する:場' 合も考えられる。
また、 上記の類似率算出装置 3. Aは、:パ^- ナレ,コンピュータ、 クー - クステーショ ンなど様々なコンビュ タを利甩して寒. すること:がで.. きる。 さらに、 コンピュータをネ'ッ.:ト^ー-ク 'で揆続して機能を分散して:; 実施するようにしても良い。、
本発明に係る類似率算出装置 Mび 類似率算出プ π 、ラ によつで 算出される技術文献の類似率と〖 M 1' 技術文献群 r. (技術文献 A群). と別の第 2の技術文献群 (技術文献 &群) とを所定のキ ヮードや; ί P Cなどに基づいてマク口的に比較した:際 .算出.される数修であって _、 技 術文献群同士がどの程度技術的に関連があるかを示す:指標:と.するため の数値をいう。
そして、 第 1の技術文献群 (技術文献 Α:群) と第 2"の技術.文献群' (技 術文献 Β群) は、 何らかの属性 :挎っ技術文献の集まり:とする。
本発明では、 Α社が出願した特許 報.や Α社が発 技報:^'ど:の第】 1の技術文献群 (技術文献 A群) に記載.された技術内容^:、 B社が 病 した特許公報や B社が発行した技.報な の第 の技術文献群 (技術 ¾献 B群) に記載された技術内容とが-、 どれだけ類似している を定性的 評価する指標としての数値を算 titすることによって、技術文献同士を容 易に比較することが可能となっている。 .
以下に説明する実施例では、 第 1の技術;文献群 ('技術文献 A群) .と-第 2の技術文献群 (技術文献 B群) に記載ざれた技術内容が類似してい ほど、 類似率は大きい値をとるものと::定義じ: e:v、る。
なお本発明では、類似率を算出する.際 異なる:条件 設定じた場合で あっても、 第 1の技術文献群 (技術文献 A-群) .と第; 2の技術文献群 (技 術文献 B群) —との間で算出した類似率-と; 第 3の'技術文献群 (技術文献… C群) と第 4の技術文献群 (技術文献 D群)::ど 間で算出した類似率と ' を直接比較することが可能であるよう.に、:類似率が-取り得-る範囲と.しで、 0 ^類似率≤ 1となるような演算'を::行なうことにじているが、類似率の- 取り得る範囲はこの範囲に限定ざれ/るも:のでほない。. I
図 3は、技術文献 A群と技術文献. B群に1^.まれる技術文献の構成を示 す図である。
同図に示すように、 技術文献 Α·群は -A 1,. A 2;: A 3 , ", ΑΜの M . 個の技術文献から構成されており:'、技術文献: Β群は、 Β 1 ·, Β 2,:Β 3:, …: Β Νの Ν個の技術文献から構成され-て:い:る.。'
図 4は、 類似率の表示処理を示すフ >~チ 一 でおる:。 ,
同図に示すように、 利用者が技術文献群:ど じを.比較:し:て、技術内容' が類似する度合いを調査する場合'には、 :: s_ Γ 0.:.:「類^ I率算出指示入力」' (以下 S 1 0のように省略して記載する。):において、:類似率算出指示 を類似率算出装置 3 0のキ^ボード、.マウス等の入力手段 3 7 Qを操作 して入力し、 以降の処理を実施させる— - .
類似率算出装置 3 0が、 S 1 0 0- 「入力画-面読出 '表示.」;にて、:.類似 率算出指示に基づいて、類似率算出に'関する各種条件の入力顯面の表示, 情報を記録手段 3 8 4から読み出し-で その表示情報に基 た-類似率.:: 算出に必要な条件の入力画面を表示:手段 3 · 7 2に表示す:る。:'
図 5は、 類似率算出のための入力:画 ffiの表示例を示 図である ό ; 同図に示すように入力画面には、 T比較対象と」なつ: いる'第: Lの技術.文- 献群と第 2の技術文献群の抽出条俯'を指定す;る情報と、キ^^ードゃ I 二 P Cなどの技術情報を指定する旨の情報が表 ¾ざれてレ ίる。.利用者ほ . 表示画面に基づいて諸事項を入力するごとが可能どな でいる。 ; クラスタ分解の条件を入力する部分では、 Λ特許公報、 技報等の対象.文. 献の指定や、 全文、 請求項部分のみ等の:対象部分の設定や、 I P C、 キニ ーヮード等のクラスタ分解の尺度等の各種条件,を入力す 」ことが可:能 となっている。 更に技術文献群の轴出条件として、 .特許 報の出願:日;の :. 期間、 業界名称、 出典元の企業名、 個入名等を入方する.項目が表示され ている。 利用者は、 図 5に示した入力画面に基 レ、.て:、'容易に類似.率 . 算出条件を入力したり、 予め設け.られて る複数の算出条件の中から所: 望の算出条件を選択することが可能どな.づ..ている.。
また図 5には、混在クラスタ比、を類似率 算出用途 :応^て:捕: IE :る: ための、 補正方法を入力する部分力設け:られて る。
例えば補正項 1として、各混在グラスタ^に含まれる技術文献の量に応 じた値に基づいて、 類似率を補正する:お否かの補正条件を、 利甩者が入- 力することが可能となっている。
また補正項 2として、各混在クラス.タに含まれる-第 .1, 技術文親群の- 技術文献と第 2の技術 ¾献群の技術-文献との混ざ.り..具合に応じた値に.; 基づいて、 類似率を補正するか否かの補: ΪΕ条件-を、. :利用者が:入力:する: : とが可能となっている。
なお本発明では、 この技術文献との混ざり具合に応じた補正方法.と:じ て、 第 1の技術文献群の中から m個、 第- 2.の綠術文献群のヰから n個の 技術文献を取り出す確率の γ乗 (低し.、' . Qく 7 )'に比例. た捕 15怖を:各 混在クラスタについて総和を算出し、 こ;れを全タ:ラスタ-数で.除算レ:て類: 似率の補正等を行なう、 「技術文献数:の.確率」 .1こ応じた捕正方法:を選択 することが可能となっている。
また本発明では、第 1の技術^献鮮に含ま る技術文献数 Μ.と第- 2の- 技術文献群に含まれる技術文献数 と:の構成比 Ν_/ Μと、 クラスタ分解:: した結果得られた混在クラスタに含まれる第 1 -の技術文献群..の:技術/文 献数 mと第 2の技術文献群の技術文献数 nの壤.在 :、 ή /rn i:に :いて- 更に構成比と混在比との比を取ったものの ζ擎 (但レ '、:〇.< ζ )二に譲 した補正値を、 各混在クラスタについ 翁和:を算出— b、-これを全クラス タ数で除算して類似率の補正等を行なう、.「技術文献.の;混在比:! に応じ.' た補正方法を選択することが可能と って-いる。
また本発明では、 第 1の技術文献群と第 2の.' . 術文献群とを混合レ : 技術文献群の中から、 第 1の技術文献群の技術.文献を取り出す確津に.、 前記クラスタ分解した混在クラスタに含まれ 技術 ¾献数'を乗:算じ . 第 1の技術文献群の技術文献を'取:り.出す期待値:を算出:じ、、期待値..と.混合. クラスタに含まれる第 1の技術文献群の技術文献数との.差-を期待値差:. として算出し、 その期待値差を任意定教 (-低:.レ . 1ぐ ) -の負 指数,., とした補正値を、 各混在クラスタに て-総.和を算出:レ、:これを全ク資 スタ数で乗算して類似率の補正等:を行なう 「技術文献 期待値差; -に-. : 応じた補正方法を選択することが可能' な 0いる。
図 4に示す S 1 2 「類似率算出条件入力] にで、 利用者'は、 表示手紫 に表示されている案内に基づいて、 特許:文献、 技報、 -社報-、 技術論文等 の技術文献種別や、 比較する技術文献群の:指定.、 クラスダ.分解を実施す-: る際に技術文献群から技術文献を抽出する条件となる I P C.又は -; ワード等、 更に類似率を算出する.際の目的に応 た:補 情報:を 入力手: 段 3 7 0を介して入力する。
S 1 0 2 「技術文献取得」 にて、 情報処理手段 3. 8 0は、 利用者.かお:. 入力した技術文献種別 (例えば特許文献),に基づい:て検索するデ: r汐ベ-: ースを特定し、 利用者から入力しお技術文献群'(例えば A:社の技術^:献- A群及び B社の技術文献 B群) の指定に基づいた技術文献群 .取得情歡 を特定のデータベースに出力する.。
S 1 3 0 「技術文献読出」 にて;' 技:術:文献デ^"タベース 2:0は、—類似: 率算出手段 3 0から取得した技術文献種別.ど 技術文献群等に基づ: se, データベース内を検索して技術: ίς献を読: して;^:類似率算祖装;置' 3_、oに' - 送信する。
S 1 0 4 「類似率算出処理」 にて、 類似率.算出装置 3,0.は、 デ ース 2 0から取得した技術文献群. (例えば A社:の技術文献 A群及び B:社 の技術文献 B群) の中から、 ·利用者措定の P Cやキーワ— 'ドを共通し: て含む技術文献を選び出して、 クラスタ.毎に分解する処理を行-なう。 - クラスタ分解した結果、技術文献. A群に属する.技術文献及び技術丈献 B群に属する技術文献とが混在している:クラスタを混在ク スダと定 義する。 本発明では、 全クラスタ うち、,混在クラスタが存在す 割合: に基づいて類似率を算出する。
また、 類似率の用途に応じて、 '混在クラ.スタ:に含ま:.れる:技;術文献の数 量や混在確率、 混在比率、 又はこれちの組合せに-応じた補正.を行な とも可能である。
S 1 0 6 「類似率表示処理」 にて.、 類似率算:出装置 3 0·は 算出した. 類似率を表示手段 3 7 2に表示してく :利用者—に:通知する な:お、. S. 0 6にて類似率を表示手段 3 7 2に.表示す 'る代ね 算出^た頻似率—を: 送受信手段 3 6 5と通信網 1 0を介して他の通信機器に送-信出力.する' ようにしてもよいし、記録手段ィ ^ター ェ ス 3- .8.5.を しで記録芋. 段 3 8 4に記録出力するようにしで .よい'レ 記録媒体イン:タ:ーフ? ^ ス 3 7 9を介して記録媒体 3 7 7·に記録-出力す.る.:ようにし ίておよ 。:ま' た、算出した類似率を、印刷用のプリ タイ^タ (図^せず)二 を介して印刷手段に出力するように—し:てもよ 、。 - 図 6は、 類似率算出装置 3 0が算出した類似.率を利用者に通知する:;: 類似率表示画面の表示例を示す図である'。
同図に示すように、 類似率表示福面には:; 利用者が カレた技術-文献 群を抽出指定する情報と、 キーワ^ドゃ I P c 'などの技艇情報をク . タ分解した際の尺度や、補正方法等の入力-情報が確認のために表示され ている。
また類似率表示画面にはく 捕正項; 3 :と-じて、 例えばグ 'ラス'タ分解 - 際の所定の特許分類やキーヮー'ド 注目.して恣意的:な重み.付 ;け. 行 ¾ うための補正条件を、各クラスタ毎に利用者が入力することが可能とな つている。 同図に示す例では、 補正項: 3の数値として:. r i: .: rq 0 ;D J . ¾ 設定している。
また類似率表示画面には、·類似率:の算出:結果 、 rそ'の類似率を補 ΊΕ るための、 c 、 、 ζ 、 等の類似:率算出条件を連:続:的に変更する:ステ ィ ドバーと、 各クラスタの補正項を確認する, め -、 '.分解したクラス;タ の内容を表示する部分が設けられてい-る。 - 利用者は、 算出された類似率を'見ながら、— -自:由に類似率の算出条件を"; 変更することが可能となっている。.利'用者がスラ -.ド :バーを操作した場 合には、情報処理手段 3 8 0がカレンダ時計, 3· 9. 0が係数する時間 基 いて、 スライ ドバーの操作完了:を判避 る。; . :ると.、精報処理手段 3 : 8 0が実施する処理は S 1 0 4に.分岐し 再度.類似率を算出し、類似率 の演算結果を類似率表示画面に表示す:る処理を.行なう ό
図 4に示す S 1 4 「終了」、 S H8 ;i「終了 及ぴ S ..1.4 O ,「終了.」 ;: にて、 類似率算出処理が終了する。
本発明における技術文献のクラ:スタ分解とは、 ':第.1·.の技術文献群' (Α - 群)と第 2の技術文献群(Β群)をマクロ的に-比較するための. 「類 率」 -' を算出する際に、 キーヮードゃ KP C等を用 、て技術文献-を分類する; とをいう。
本発明を創作するにあたつて比較する 2つの技術.文献群.を鳥瞰して みたとき、 2つの技術文献群が別:々にな て.いると、 非常に.計算が複雑」 になるが、 2つを 「混ぜて」 しまっ 整理整頓すればずつ, 計算が容易 になるのではないかと、 エイャと 「混ぜた-」 .ら.案の定類似.率の算出に磨- した様子が見えてきた。 双方の技術文献群を混ぜた後 ク,:ラスタ'分解に::. より分類したところ、 一部に両方め技術文献群の構成要素 (技術文献)':- を含むクラスタ (混在クラスタ) が存在し; その'分解した-全クラ タ霧- に対する混在クラスタの割合が、我々: -の通常の感覚としての類似率に近 いことがわかった。
先ず、 上記のように第 1の技術文献群と第 2.の技術文献群の双方の技 術文献を混ぜてひとつの群にする。: - 混ざった技術文献の群を、 何らか—の分:類法に.:よ .、 ある技術文献の:小. さな集まり (クラスタという) に'分解す:る。 ·あるクラスタには第 1の技 術文献群に属する技術文献が m個と第 2の技術文献群に属す-る技T文-: 献が n個含まれているとする。
技術文献を I P C (国際特許分類) 毎や: ^ 技術文献に所定のキーヮ:_— . ドが含まれるか否かによって 「グル^ "プ分け-!することを 「クラス:タ分:: 解」 すると定義する。 図 7に、本発明に係る類似率算: ±j.葬置を用.いて技责文献群をクラスタ. 分解した後の各クラスタの構成き す.。, '
例えば図 7に示すように、 I P C 「G 0 6 F 1 3 0.」 -に分類さ れる技術文献として、 第 1の技術文献群 ま-〖.特許文:献 A 1」 が:、-きた 第 2の技術文献群には 「特許文献 B ^ ^ぞれ存在レ¾場食には : I P C 「G 0 6 F 1 7 Z 3 0」の ラ.ス:タ;-に:は 「特許^献 A 1、」 .と_:「特 許文献 B l」 の要素が含まれる。
また例えば、 キ一ワードとして 「テ:キス:ト処理」. い-う-文言を食 技. 術文献が、 第 1の技術文献群にゆ. 「垓術 献 4 :^、:また第 -の技術. 文献群には「技術文献 B 2」及び :「:技術文献 B 3.」が存在した場合には、- キーワード 「テキス ト処理」 のクラ;;スタには 「技術文献 A 2」 と 「技術 文献 B 2」、 「技術文献 B 3」 の要素.が ま一れ ¾。 :
なお、 クラスタ分解の方法には、. ¾ 文鞑群の個タの.技術文献の属性 により 2通りの扱いがあり、 それ Jま^下 通り あ-る。 '- ノ - -:—:.
1 . 外的な基準がある属性 (属.性 1· '型と.:定義する)」の場合は、 その禺÷ 性それぞれでクラスタを構成できる:。.例えば、 -特許公報等の.技術; ¾¾:e: いえば、 出願日め日付や I p cなど、 意 :.決まる技術文献で:あ:る.。.: -ί:.. ι·
2 . 内的な関係で属性が決まる値:(属性 2型と 身.—する)-.'は'、 前処 ¾ として多変量解析(クラスタ分析)など (こ クラスタ化が必要で:ある: ό 例えば特許公報技術文献の:中では 要 や請求:項/よどの文書に外的な基 準をあてほめることが難しいため、^書間..のミ. :.口的:な類似率, ¾Jj 義し、 それに基づいて多変量分解 .行 转果を..用いて-ク .スダを構成 する。なお、文書間のミクロ的な類 .率に 、て:は : I D F法など、 -
—般的に広く用いられているもの—.を使 :することに.より」、.分析者—の恣意 の混入を防ぐことが可能である。 - 情報処理手段 3 8 0等のクラスタ分解手 は:、第 1の _ 術文献群 ¾び- 第 2の技術文献群に含まれる技術文献に.つい„で、:技術情報 Λ力手段を介: して入力した技術情報を含む技術: ί献を検率し、.該検索した技術文献.を それぞれの技術情報毎にクラスタ分解-し Τレ、 - 本発明の実施例では、 混在クラス を.以下の う:'に:定義す:る:。
図 7に示す I P C 「 G 0 6 F 1 7r/ 3 0」 クラスタ,には、 技術:^: 献 A群に属する 「特許文献 A 1」 と、 技術文献. B:群に属する. Γ特許文献
B 1」とが混在している。このように、技術文献 A群-に属する技術; ¾献、 - 及び技術文献 B群に属する技術 ¾献が揮在してい、.るクラスタを混在ク— ラスタと定義する。
本発明の実施例では、 非混在ク タ:を以下のよ:うに定義する。
例えば図 7に示すように、 I P C 「 0 1 j に分類される技術文献-と して、 技術文献 A群には 「特許文献 3」.:が存在^ が 技術文献 B辨 には I P C 「B 0 1」 に分類され.る;技術文献力 s弃 a¾な ΐ場合 ίも ί :,
P C 「B 0 1」 のクラスタには 「特許文献 A 3 3- -のみが要 と.して:^ま れる。
また図 Ίに示すように、 例えばキーワード-と:レて.「無機化合物 う文言を含む技術文献は、技術文歐 A群 iこ. Lま存在し.ないが技術:文献 B群- には 「技術文献 B 1」 が存在した場合には、 ^" ー.ド .「舞.機化食物」」 のクラスタには 「技術文献 B 1」 が要素;として含'まれる .
このように、 技術文献 A群に属する技術文献と、技術文献 B群に属す" る技術文献とが混在していないクラ タ.を.非混 二ク:ラスタと定義 ΐる :- 図 8は、 類似率の算出処理を示すフ口 _ :^ でおる。'
情報処理手段 3 8 0が実施する処理 、 .図: 4 jこ示— bた S .1 0 4-に進む:と.、 情報処理手段 3 8 0が実施する処理ま S-2 0.-0 ,に:分岐.し きて.; S , 2..Ό- 0以降の処理を実施す.る。
頻似率算出装置 3 0の情報処理-手「段 3:8 0は^ S 2 0 0 .「技術文献 A ■ 群と技術文献 B群とを混同する」—に- v S I 0 2 「.技術文献取得」 ^ :: つてデータベースから取得した技術 献群 (例えば A社 )第1の技術文 献群及び B社の第 2の技術文献群) 混合;;し-て:、: 1つの技術文献群にす る処理を行なゔ。
S 2 0 2 「クラスタ分解処理」 て情報処 g手 3 8 は、 キ .ヮ. ドゃ I P C等の技術情報に基づいてクラス.タ-分解処理を行う:。次の S 2 ^ 0 4 「補正項 1の計算式を設定」 にて、' 情報 理手.段' 3 8.0は、'混察ク: ラスタに含まれる技術文献の数量 1こ応:じ.て類似率:を補正する—旨の指示 を利用者から入力している場合には、:' の措示に基づ: た補:正項の数式: を選択する処理を行なう。 ここでは、 補正 内容に応:じて-補正項 1に所 定の数式を代入する処理を行なう。
補正項 1は、 混在クラスタに含まれ' ¾技_銜、文爾.の量が多い程、 重要な クラスタであると考えて類似率が高 なる.よ:う 重レ、重み付」けをして 類似率の補正を行なうための補正項で る..。
混在クラスタに含まれる技術文献の:数氣に応じ-て類似率-を補 JE な い場合には、 補正項 1 = (定数):を代入する.。
S 2 0 6 「補正項 2の計算式を設定」 にて情報処理手段 3 8 0'は、 .混 在クラスタに含まれる技術文献 A 技術文献 Bとの混ざり具合に応じ て類似率を補正する旨の指示を利用者から入-力している場合には.、 そ 指示に基づいた補正項の数式を選択す.る処瑪 行な:う。' では 捕正 の内容に応じて補正項 2に所定の数式を代入する処理を-行な:う。
補正項 2は、混在クラスタに含まれる技術文献^)割合:が所定の量 -近 い程、重要なクラスタであると考えで類似率が高くなるよう-に重い重み 付けをして類似率の補正を行なう:†zめ.の細正項である。
混在クラスタに含まれる技術文献の混ざ-り '具合'に じて艇似率を補 正しない場合には、 補正項 2 = 1 (定:数) を '代入する。
S 2 0 8 「補正項 3の値を設定:]-:に:て:情 :報処理手段 3ς8 -ί>は、 ラス- タ分解した際の所定の特許分類ゃキ ヮ一ド-に法'目し:て恣意的 萆み 付けを行なって、類似率を補正する:旨の指示:を:利用者から 力.レ.ている 場合には、 その指示に基づいた補 ¾項:の数式を選択する.処理を行な-う 9 ここでは、補正の内容に応じて補-正項 3·に所定の値を代入する処理.を行 · なう。 クラスタ分解した際の所定の特許分類やキーヮ一ドについて特 : 注目しない場合には、 補正項 3 =.1 J(.定数-) ,を代入する。
S 2 1 0 「類似率算出」 にて情報処理手-段 3 8.0は、 各混在クラス-タ について補正項 1、 補正項 2、 補. IE項 ;3:の各補正項を乗算「して総和を算 出する。 更に規格化するために全クラスタ欽で除算 .て類似率を算:出す る処理を行なう。
S 2 1 2 「終了」 にて、 類似率算出-処理の.サブ/レーチン-を;終了::レて、 元の処理に戻る。
図 9に、 類似率の計算に用.いる設定条件を示す。
図 9は比較対象となる第 1の技術文:献群及び第.2 'の技術文献群と;各: 群の技術文献を 4つのクラスタに分解し-た.場合 各クラ.スタ 1〜..4.に 存在する各技術文献数を示す図表である。 同図右端に示す';期待する-類 似率」 の値は、 技術文献の類似性の判断を行なっている複数の専門家に ヒアリングを行なった結果、条件 1〜 .の.場合;に Λ 算出される ¾を期 待する類似率の値を示したものであ-る そして .その期待する類似率 , 値に対して許容され得ると思われる範囲は、 同図に示す うに許容範囲. = ±0. 050程度である。
したがって、本発明に係る類似率算出装置を用いて類似率-を算出した 結果、 図 9に示す許容範囲内で類似率が算 ttT れれば、 技術文献周士.の: 比較が最適に行なわれていることを示じている。.'
基本型 1 :補正項を考慮しない場合の:類似率 f基本型 1·') -の.算出—例. ^ 以下に、補正項を用い-ない基本型の類似率懂本型.1 )の算出例を示す。 この類似率 (基本型 1 ) の算出例は、 _混在クラスタ抽出法により技術文 献の類似率を演算するものである。
第 1の技術文献群に含まれる技術内:容.と'、 第?の技術文献群に含まれ: る技術内容とが、どれだけ類似し τいるか ^度合(類.似率の値 大き-さ .. は、 「混在クラスタの数量」 に比例するものと考えられる。 _
また類似率を、 0≤類似率≤ 1の範囲に設定するために、例え ί 「^ 在クラスタ数」 を、 「混在クラスタ数と非溏在クラスタ数の翁和」. であ- る 「全クラスタ数」 で除算した混在クラスタを算出.するど、 技術.文献群 同士の類似率として以下の (式 1.) :が得ちれ.る。
混在クラスタを考慮した類似率算出方法を混在クラスタ抽出法'と定 義する。 下記に示す (式 1 ) は最も基本的な考え方である。 下記の:(式 1 ) では、 クラスタ分解した結果得られた全タ'ラスタ数とく 第 1_の技術 文献群及び第 2の技術文献群の..双 技術文献を含む混在クラスタ数 との比 (以下混在グラスタ比と呼ぶ):::を類似'率:どレて算出す;る 例を示 している。 したがって、 全クラス„タ数 混在ク.ラスタ数の比の算出のし かたは、 下記の (式 1 ) に限定され.るおの^はない。:
1 全クラスタ.数
類似率 (基本型 1 ) = . ^— ^
全クフス ¾.ク 。1
= 昆 クラスタ ぱ 1 ) .
全クラスタ数 但し、
δ =混在クラスタの場合…… 1
非混在クラスタの場合… 0 先に述べたように、類似率とは第 1 :の拔術文-献群に.記載されて る技 術内容と第 2の技術文献群に記載.されて.、る技術内-容:と:.がどれだ.け類' 似しているかを示す数値である。..
また、 混在クラスタ数とは、 第 の技術文餘群: 属する:技術文献及 第 2の技術文献群に属する技術:文献が '混在じで..い:るク タの数を示 す数値である。
全クラスタ数とは、第 1の技術 献.群の技術文献又は第 2の技術文献 群の技術文献が存在するクラスタの全象.を示す数値である。
以下に、 類似率 (基本型 1 ) の計算 用レ、た場合の計算結果に. 」 て説明する。
第 1の技術文献群と第 2の技術文献群 ついで >所定のキーヮ一ドゃ I P C等を用いてクラスタ分解を行な. .た結果、 -全-クラスタ数が 1 個 であって、混在クラスタ数が 3個であ-つ:た場合に:は、類似率(基本型 1: ) - = 3 / 1 0 = 0 . 3 と算出される。 また、 全クラスタ数が 4個であって; 混在クラスタ数が: 2個であ た; • 場合には、 類似率 (基本型 1 ) = 2 . 0 :,' 5 と算出される。:
第 1の技術文献群と第 2の技術文献群に含—まれ''る謹文献を、 'キ ワ ——ドゃ I P C等を用いてクラスタ分解し、 その分解した全クラスタ.数;と: 混在クラスタ数の比を類似率として算出するこ:とに.よつて、.技術文献群: 同士の類似率の基礎部分となる値を算出することが可能となる。
また、 類似率を算出する際に、 混在クラスタ数を全クラスタ数で除算
. することによって、 算出される類似率の戴を U_類似率≤ 1 の範囲 に設定することが可能となる。
以下に、 類似率 (基本型 1 ) を用いた場合の :発¾ ^効 いて説明- する。
第 の技術文献群と第 2の技術文献群に含まれるキ ワードや L P C等を用いてクラスタ分解し、 その分解した全クラスタ数と混在クラス タ数の比に基づいて類似率を算出する. tによ ¾てく技術文献群同士が どの程度技術的に類似しているかを示す指標を簡便に算出する :とが 可能となる。 ここで算出される類似率は、おれわれが常識'.的に考えた技 術文献群同士の類似の程度と割合^致して.いる とがわかづた。; また本発明では、算出する類似率の値を' . O 類似率≤1 範囲に
- 設定する演算を行なっている'ので、全- ラ^タ数量や混在ク..ラスタの数: 量、 また技術文献群に含まれる技術文献ぬ量の多少、に関わちず^'定.の指 標を算出することが可能となる。 -' . 更に、 より多くの条件下で第 1の技術文献群と第: 2の技術文献群:を:比 較した類似率と、第 1の技術文献群と第 :3·の技術文献群-とを比較もた類 似率とを直接対比することも.可能となる.。.
基本型 2 :補正項を考慮した場合の類似率:(基本型 2 ) の算出例 - 以下に、 補正項を考慮した場合の類似率 (基本型 2 ·) の算出例 'を示:^。- この類似率 (基本型 2 ) の算出例は; 前記類似率: (基本型 1 ) 'の算出例 に対して補正項 1〜 3を加味したものと-なつでい'る。
上記の (式 1 ) を用いて類似率を算出すると、 混在クラスタ数に比 !j した頻似率が簡単な数式を用いてたいへん素早 <算出できる 'という利 カ ある。
上記の最も基本的な (式 1〉 は、 :たと ば多 <¾技術^:献.を食 クラ スタと少数の技術文献しか含まないクラ不タが対等の寄与を持つ結 となることでもわかるように、個 . <5>クラスタ內の.技術: ¾:献数-の大-小:を ;: 考慮していないという欠点があるために.、混在クラ タ^ :多-く , φ¾術. 文献が含まれる場合であっても、 2つレか技術文献が含まれ;ない.場合:で. あっても同一の類似率が算出されてし:ま 、―、 われゎれ.が常識的 考えた. 類似の程度と異なってしまう場合が.あると fc、 ¾不具合を.生 る可能性 がある。
混在グラスタに含まれる技術文献.の量の他にも 混在クラスタに含ま- れる第 1の技術'文献群の技術文献 .第 2の:技術: ¾:献群の:技術 5:翁^;混 ざり具合(第 1の技術文献群の技術文献と-第 2の技術文献群の技.術文賦: との割合) や、 特定の特許分類やキ ワ . -ド. 注目レたぃ場合の恣意:的: な重み付けなどによって、算出される類似:率 値を铺正レたい場合力生 じる。
図 1 0は、混在クラスタ 1に技術文献が多く含まれでい.る状況を示す:: 図である。
図 1 0に示す例では、 クラスタ :1 . C混 ラ ή. -.には、 技術:^ 多く含まれているので重要なクラ タ ると考え:.られ.、類微率計:算 際に最も寄与が大きくなると良い
別のクラスタ (例えばクラスタ タラスタ 3,ク.ラ タ :4な ) 含まれている技術文献が少ないので重要なグ ス.タで ^^、 思 るので、 クラスタ 1の寄与に比べる,ど itつ h小.さ. -¾るの 望 い。 図 1 0の例のような状況にある場合、^ラスタ l:rに:対-し クラ^タ. '2 クラスタ 3,クラスタ 4の影響を軽視すべき.場合 あ:る。 'なお、含ま:れ:.る 技^文献数量が少ないクラスタの存在を無視し:な^場合には:、算出さ - る類似率の値は 0. 5まで下がって:しまう-。- そこで以下の (式 2 ) に示すよう .(式 ) ·のふニ(グラ ¾タが混在: クラスタである場合には δ = 1と 、::それ以外の場合に ¾ δ =' ο -とす る) に対して補正項を乗算するこ ;に る。 なお、 補正によって類似率 の範囲が、 0≤頻似率≤ 1 の範困を超えない.よう , するためには適当 な規格化因子が必要である。
類似率 (基本型 2 ) = . . ^
全クフスタ数
全クラス 数 、
補正項 1 )x(補正項 2 )x(補正項 3 )X(5} ' . . (式 2 ) クラスタ = ].
但し、
δ =混在クラスタの場合…… 1
非混在クラスタの場合… 0
(式 2 ) に示す補正項 1は、 混在クラ^タに」含まれる技術文 .暈に 応じて類似率を算出するための補正項である。 この補正項 1は、 混在ク ラスタに含まれる技術文献の量が多レ、程、重要 .クテスタ.'であ:ると考え: て類似率が高くなるように重い糞み付はをして類似率の補正を行なう 補正項である。
また逆に補正項 1は、混在クラス.タ 含まれる技術; ¾:錄;の *が,少なレ -、 程、重要なクラスタでないと考え': τ録 が.低ぐな £る.よ,う :軽い尊み付 けをして類似率の補正を行なうこ も可能な補正項.である '
また補正項 1は、各混在クラス.ダ 含まれる 術^!^.暈 応じた俥; を取る第 1の補正値を算出する;とが可能な他の計.算式を av、た補正 項であって.もよい。
(式 2 ) に示す補正項 2は、 混在クラ'スタに含まれる技 (術文献 A ¾ 術文献 Bの混ざり具合 (技術文献: Α·と:孩;術文献 B 割合): 応じて類似: 率を算出するため-の補正項である:。
補正項 2は、混在クラスタに含まれ::る技術文献の割合が所定の量に近 い程、重要なクラスタであると考えて類似垂が高く? ¾¾ように'重い重み: 付けをして類似率の補正を行なゔ補正項である V
また補正項 2は、各混在クラスタ m¾まれる::第 技術文献群の液術. 文献と第 2の技術文献群の技術文献:と .混ざり具合 1.こ-応.じた値を取る 第 2の補正値を算出することが可能な補正項である。 . .
(式 2 ) に示すように類似率は、 補正項 1、 補正項 2、 又は捕正項 3 を全ての混在クラスタについての総和を算出'' 、 '該総和 : -.
で除算する演算を行なっている。
補正項 2を算出する際に用いる技術文献の 混 : "ざり具合」 の意味は、 以下のとおりである。
ある混在クラスタに含まれる第 1の技術文献群の技術文献、及び 2 -の技術文献群に含まれる技術文献の混 -り.具合-に注目 : て、双方の技術 文献がよく混ざっているとき、すなわ:ち双方の技術文献数が偏ってい-な いときに重要なクラスタと考えて重い重みを付け、 よく混ざっていない 場合、すなわち技術文献数が片方の技術文献群の に偏 て る.場合. に、重要ではないクラスタと考えて軽い:重み:付: をす—る:た:めの.補 項;目: である。
言い換えると、 たとえばある混在.ク:ラ:スタに含ま る、'第 1の技術 献群の技術文献と第 2の技術文献群 技術文献の数量が、第 1の技術文 献群と第 2の技術文献群から無作為に抽出^た.とき 期待値こ近いも:. のは重く、 遠いものは軽くする補.: E項である
補正項 3とは、 特定の特許分類や.キ^ワ :ドに:注目 い場合 :、-恣' 意的な重み付けを行なつて類似率を:算出する:—ため 補正項である。'こ- 項は技術文献群同士を比較する者が-個別設定す.る:項であるので、今回-は 考慮せずに定数 「1」 を代入しでお—く。 . . 応用型 1 :補正項.1 ( 1 ) の算出例 .. 補正項 ( 1 ) =^_ラスタ内の ft術文献数)'
(規格化因子)
(クラスダ内の技術文軟数)"
…(式 3〉
∑ (クラスタ内の技術文献数)
全クラスタ数" :
補正項 1 ( 1 ) を考慮した類似率. (式 4 ) の算出例を:以下に示す. c
1 今クラス 数
類似率 =ベ ' ∑ ((補正項 )x(補 IE項— 2 <(補正項 3 )x<5}
- Jノハ ISクラスタ = -1 全クラスタ数
S (クラスタ内の技術文献数) a
- ∑ -x(補正項 2 )x(補—正項 3—.)Χ(5 ズ式 4)— a '
∑ (クラスタ内の技術 X麟数:
全クラスタ数クラ =, 補正項 1 ( 1 ) では、 類似率力 ^混在タ:ラスタ.に含まれる技術-文献の に応じて大きな値をとるように捕正するために、 「クラスタ内の技術文 献数」 のひ乗 (伹し、 0 <: ct ) を分子に配貴-し..ている。 そじで、 '類似率— の算出範囲として 0 ^類似率 d を.保証する.:ために、:補正項.1 ( 1), の式では規格化因子を分母に配置 て:い:る.。 '
(式 4 ) に示す補正項 1 ( 1 ) の翁算で ί :分子に配置.した::タ : 内の技術文献数が多い場合であつても類似率.の修が:. を超えな:いよ-う - にするためと、 技術文献の量の多少の. 断.基:準を.設けるため;に、'規格 '.. 因子として、全クラスタ内の技術文献数の:平均値:を配置レて:い-る οなお、 規格化因子は、 全クラスタ内の技 文献:数の '乗の総和を算出- 全ク ラスタ数で除算した値を配置してもよ: 。 この親格化因子は、 .0. 類-似 率≤ 1 を保証することが可能な項であればょ 、 (式 4 ) の数式に限 定されるものではない。
更に、 含まれる技術文献の量が少ない混在クラスタの影響を、 類似率 の算出結果に大きぐ反映させたくない場合には、 分子の指数 αを
1 に設定する。
また、 単純にクラスタ内の技術文献数の量に応じて類似率'^ If減 せ: る要望がある場合には、 α = 1 に設定する。
まだ、 クラスタに含まれる技術文献の量に応じて類似率を.算出すると ともに、 技術文献が多量に含まれるクラスタの存在による類似率の算出 結果の影響を少なくする必要がある場 :に:は、 ^'く. X 1 こ.設定する- とよい。
以下に 「応用型 1 :捕正項 1 ( 1)」 の計算式の分 ¾と:.分母の構成に よる作用について説明する。
式 4に説明するように 「クラスタ内 ^技術文献数」 を補正項 1 (.1 ). の分子に配置したので、 クラスタ内の技術文献数に比例した類似率を算 出することが可能となる。
また、 「規格化因子」 を補正項 1 の分母に配置しこので、 0 類似率≤ 1 を保証することが可能となる。 そして、 補正項 1 (1 ) の 規格化因子として、全クラスタ内の技術文献数 平均値を'配置:し:.だ: で 全クラスタ内の技術文献数の平均値を基準と-して 技術文献の量の—多少 を算出することが可能となる。
更に、 分子の指数 αを α〉 1 に設定する -とによつ:て 混在クラ; スタに含まれる技術文献の量が少な'い-混在ク スタの影響を、:類似率の. 算出結果に大きく反映させないよう す:'ることが可能-と':なる。 .また、 -:.分 子の指数を α = 1 に設定することによって、単純にクラ^タ内の技術 文献数の量に応じて類似率を增減 せる とが可能となる 単純含数 ½ 較)。 また、 分子の指数を 0 < α < 1 : に設定することによって、.技術 文献が多量に含まれるクラスタの存在による類似率の算出:結果の影響 を少なくすることが可能となる。
以下に、 「応用型 1 :補正項 1 ( の -計象式- (式こ 4) に;; .図- 9に示 した各条件を代入した場合の計算例を示-す。 なお 算出結果は、 図 1 1 に、 補正項 1 ( 1 ) を採用した場合の類似率算出例. (補正-項 に 条件 1〜 4を代入した場合の計算'結果) の:図表''と.して示お 補正項 1 ( 1 ) のみを考慮して:他 補 JE:項-を考慮しない場合であづで (すなわち補正項 2 = 1、 補正項 3_=:1と-する-)、 弹純に混合-クラ .タ 内に含まれる技術文献数の比較を行:なう場合:(す,なわち α = 1としだと:. き) に、 技術文献群同士を比:較する:条件とじで、 条件 1:〜 · 4:を設定レた 場合の類似率の試算結果を以降に す。
下式 (式 5) に、 計算例 4— 1 (式 4:に条件 1を代入:した.場合) h- 算結果について説明する。
条件 1の場合には、 各混在クラスタ (本実施例;の場合に::は、 - クラ タ
1及びクラスダ 2) に含まれる技術:文献.数は、 それぞれ- 3'個である。 し たがって、 クラスタに含まれる技術:文献の量によ-る顔似率の捕-正 影響: は少ないことが期待される。
1 全クラス 数
類似率 (式 4, 条件 1 ) = ∑ί (補正項 1 )x(補正項 _2)x(補正項 3)χδ} 全クラスタ数ケラ 全クラスタ数 (クラスタ内の技術文献数)1 -χΐχΐχδ 全クラスタ数クラスタ =1 ラスタ数 1
∑ (クラスタ.内の技術 献教)
全クラスタ数クラ
3 3
=0. 5
3 + 3 + 2 + 4)/4 (3 + 3 + 2 + 4)/4
上記 (式 5) にて算出した類似率 に条件: 1を代 た場合-) .?^ 0.5 の値は、 (式 1 ) による類似.率の演算結果と r致: お 捕 ΪΕ項- 1 (1) を挿入した場合であつで.も、 われわれ 常識的..に考えた類似率 の程度と大きくずれてはいない。 おた :クラスタ内の技術文献数量お れぞれ 3、 3、 2、 4程度である で、 全てかち.同じ程度の:寄与がある べきで、 ここで類似率 =0.5 と算出された結果は:、 われわれが常識的に 考えた類似の程度 (約 0.30程度) ,から大き: :外.れてはおら. おおよ そ要件を満足しているものとなっている。 下式 (式 6) に、 計算例 4— 2 (式, 4·に条 2を代入レぉ場仓);《計 算結果について説明する。
条件 2の場合のクラスタ 1に含まれる技術文献 : *は クラ'ヌタ :2 - クラスタ 4に含まれる技術文献の量より:-も際、立って:多 ので. 類僻率 算出する際には、 クラスタ 1Γに含まれる技術 ¾歉の量の影響あ重衝 類似率を大きく算出するべきなのは明ら:かで'ある:。 ί
類似率 (式 4, 条件 2) = .一— {(補正項 1 )x(補正項 2):?< (補正項 3)x 全クフスタ数ク =1
Figure imgf000040_0001
1 50 3 ^
=0. 962 …(式 6)
4 1 50 + 3 + 2 + 4J/4 50 + 3 + 2 + 4)/4
上記 (式 6) にて算出した類似率 (式 4に条件 2を代入した場合). = 0.962の値は、クラスタ 1に含まれる技^:文献の量 .多さ-に引っ張ら'れ;— 類似率 = 0.5 (式 4に条件 1を代入した場合に算出した薄偶:率).. ら 二 似率 0.962 (式 4に条件 2を代入じた場合に算出した類似率):に補正さ れた。
以下に式 6 (式 4に条件— 2.を代入した場合)の効果について説明する。 式 6の演算処理によって、 クラスタに含まれ:る技術文献の.量が他の-ク -: スタに含まれる技術文献の量より.も多い場合に、その技術文献の.量を類: 似率の算出結果に反映させることが可能と _;なる。 . れは、 クラスタユカ 類似率を算出する際の傾向のほぼ全でを代表している-ので、 このク -ラ タ 1の性質が類似率を決めるように働いているのが見える。
そしてこの類似率の算出結果は、 れわれが常識的に考えた:類似 .程 度と、 かなり一致していることがわかっ 。:
下式 (式) に、 計算例 4— 3 に条件を 3代入した場合) 計^ ΰ 結果について説明する。
条件 3の場合には、条件 2の場合'と'クラスタに含ま-れる技術文献の量 の総和は同じであるが、 クラスタ 1に含まれる技術文献の量の.みが際立 つて多い状況ではないので、類似 算出する際にクラ :タ: Wこ;^れ る技術文献の量の影響が条件 2の場合程.ば生..じないことが望ま.し;ぃ。 一
1
類似率 (式 4, 条件 3 ) = Γ . 補正項— 補正項 2 )x(補正項- 3 ) T5j 全クラスタ数
1 (クラスタ内の技術文献数)1
全クラスタ数 δ = 全ケラズ:タ《[■ ■ ·— - …
全クラスタ数
4
Figure imgf000041_0001
上記 (式 7 ) にて算出した類似率 (式 4··に条件: 3 :を代入し:.た:場.合:)
0. 459の値は、 クラスタ 1に含まれる技術文献の量の多さが、 - 他のクラ: スタ 3よりも少し少ない程度であ;るこ-と-から、類似率 CD.補正^は.ほと ど関与しないように補正される。
以下に、 (式 7 ) の計算結果 (式.4.に条件 3を代入した場合) の効果 について説明する。
補正項 1 ( 1 ) の演算処理を行なうこ によクて ·..ク:ラスタに含'ま^ る技術文献の量が多い場合であつでも、他のクラ お含ま る 術^: 献の量と大差が無い場合には、 その技術文献の量を類似:率の算出.結果 _ あまり反映させないようにすること '可'能となる。
この (式 7 ). による類似率の算出結果 、 タラスタ.1とタラスタ- ^の 影響が大きく出るように補遺性が働いでいるの :で、 -われわれが常識的お 考えた類似の程度 (約 0. 20程度.) と大き ずれて.は:おらず ほ 祖レ、 どおりの値が得られている。 下式 (式 8) に、 計算例 4一 4 ( :4に条件を 4:代入した場合) の計 算結果について説明する。
条件 4の場合には、条件 3の場 とクラスタに含まれる技術文献の:量 の総和は同じであるが、 クラスタ.1 クラ,ス:タ .2に含まれる第 1の技- 術文献群と第 2の技術文献群と が攞端: ^均等:で;あ 合^あ る。 したがって、 混合クラスタに含まれる技術文献数が多いからといつ て類似率を大きく算出しないことが望ましい。
Figure imgf000042_0001
ク — ゥ 1 、 - . ―.
I :.. (式 8 )
(52 + 21 +82 + 4)ノ4 (52 + 21 +82 + 4) 4 上記の (式 8) にて算出—した類 ί 率 (式 に条件 -を代入し:た場合): : =0.459の値は、 クラスタ 1及びクラスタ :2に含まれる技術文献 量が- 多くても、 他のクラスタ 3よりも少し少ない程度: C:あるこ- かち'、類似: 率の補正にはほとんど関与しない-よ;ぅ こ補; Eされる:。
以下に、 (式 8) の計算結果 (式 4に.条件 :を代入 t 場合) Φ効果. について説明する。
(式 8) の演算処理によって、 ク. タ jこ含まれる技術 ¾献 量が多::: い場合であっても、他のクラスタ:に食ま-れる技辦 献の-暈」と大差が無い- 場合には、 その技術文献の量を類似率 P算出转果にあま j ,反映ざせない. ようにすることが可能どなるが、条件:4 場食には類似率は数'? セン 卜の値になることが感覚上望ましレ、.9
この条件 4の場合には、 補正項 ( 1 ): ^理 けでは 感 4:—' 致しない部分が生ずる可能性があるた _め . 以降 説明する補正-項 2が' 有用となる。但し—、クラスタ 3、 1、 -2め影響が大きくなつているので、 補正項 1 (1) の役割は十分に果たしている:といえる ό· 、 捕 Eftl ( 1 ) の処理を行なうことによつて;:.技,術文献数の多いクラスタが存在 する場合には、 そのクラスタに含まれ''る技.術文献数量の多ざを類棋率」に, 反映することが可能となっている。
図 1 1に、 補正項 1 (1) 採用::レた竭合 類似率算出例 (補正項 ( 1 ) に条件 1〜 4を代入した場:合の計算結果) .の.図表を:示す。
応用型 2 :補正項 2 (1) の算出例:
以下に示す補正項 2 (1) の計算式 (式 9) は、 混在クラスタ内の技 術文献の混在確率に応じて補正を行 うた 構成し の—である。
補正項 2 (1) = (混在確率)
(混在確率の最大値 Γ
(A群の中から m個、 B群の中から n個の.技術文献 取り出す確率)7 L
(A群の中から^、 B群の中から y個の技術文献を取り出す確率)
( A群の中から m個、 B群の中から n個め技術文献を取り ώす組合せ数 一、 八群 群とを混ぜ合わ ^中から m+n個の技術文献を取り出す^せ
A群の中から; d固、 B群の中から y個の技術文献を取り出す組合せ数
A群と B群とを混ぜ合わせた中から m+n個の技術文献を取り出す組合せ数
M+N^m+n
• (式 9)
Figure imgf000043_0001
但し、
M 第 1の技術文献群 (A群) に含ま.れ.る-技術文献数
N 第 2の技術文献群 (B群) に含まれ、 技術文献.数-.
m 所定のクラスタに含まれる第 の技術:文献群 A,m) -,の技術:^餘数 n 所定のクラスタに含まれる第- 2の-技術文献群 ( Β·群) の技術文献数 γ :任意定数 γ〉 0 上記補正項 2 (1) を考慮した類似率 (式.10).' 算出例を以下 示 す
1 全クラス $数 、 類似率 = ∑K補正項 1 )χ(補正項2 ) 補正項3 )χδ}
全クラスタ数クラ
1
- (式 10) 全クラスタ数
Figure imgf000044_0001
(式 1 0) の補正項 2 (1) では、 類似袭が、:.混在:ク ¾ .タに:含まあ- る第 1の技術文献群 (A群) 及
Figure imgf000044_0002
数の確率に応じて大きな値をとるよ: に る: 秦
献群 (A群) の中から m個、 第 2の技術文献群 B群) め中'から II個め 技術文献を取り出す確率の 乗(但し、 0;< 7 を分子に配置している。 類似率の算出範囲を 0 ^類似—率≤ を保証するために^例えば (式 1 0) に示すように、 第 1の技 ¾崎群 j 群) の中から m個、 第 2の技術文献群 (B群) の中から n個の技術支献を取り出す確率の最大 - 値の γ乗 (但し、 0 < γ) を規格化因子として分母に配置している。
規格化因子は、 0≤類似率≤ 1 を保証することが可能な項であれば よく、 (式 10) に示した規格化因子 限 ¾され ξ>Λ>Φで-はなレ、。: 以下に、 指数 γの設定条件についで謙明す.る。
単純に混在クラスタに含まれ ¾ Α群 ¾び8群の.技術文献数が、 : Α_群及 び Β群の技術文献群から無作為に抽出し:た際:の分布に'近-レゝ度'合 、」に比 例して類似率の値を補正する必要がある:場合には 指数 γを 7;= 1 に設定するとよい。
また、 混在クラスダに含まれる 及 'き技術文餅数が.、 ぴ Β群の技術文献群から無作為に抽出した際の分布に近いほど重要視 して大きな値に補正する必要がある場合、 又は、 Α群及び Β群の技 |f文 献群から無作為に抽出した際の分布に遠いほど軽視して小さな値に補. 正する必要がある場合には、 指数 を ~≤に設定す ど']:
また、 混在クラスタに含まれる Α群及び Β群の技術文献数が、 A群及 ぴ B群の技術文献群から無作為に抽出した際の分布に近くなくて 事 要視して補正する必要がある場合には、 指数 γ.^_ __0く γく 1 に設定 するとよい。
以下に、 応用型 2 :補正項 2 ( 1 ) の計算式 (式 1:0) に, 図 9に ¥ した各条件を代入した場合の計算例を示す。 なお、 算出結果は、 図 1.2-- に、 補正項 2 ( 1 ) を採用した場合の類似率算出例 (補正項 2 こ 条件 1〜4を代入した場合の計算結果) の図表として示す。
補正項 2 ( 1 ) では、 (Α群の中から m個.、 B群の中から: n:個の'技術? 文献を取り出す組合せの数) / (A群と 群 を混ぜ合わせた中 ら: : + n個の技術文献を取り出す組合.せ数),を分チに配置したの ^ 混在ク ラスタに含まれる A群及び B群の:技術文献数の偏:り ·(作為:性.)に応じ : 偏り大の場合は小さい補正値に、:偏り.小 場合は大きい補正値に頻似率' を補正することが可能となる。 本実施例では一、.,偏^が^:きい場合 」ま補 正値を小さく して類似率を小さく算出するこ-と.とし、逆に偏りが小さ: , 場合には補正値を大きく して類似率を大き.く.算-出することとしている。- 規格化因子として分母に (A群 中か-ら X:個—、 B群の中か y個?)技 術文献を取り出す組合せの数) / ( A群'と:: B群-とを混ぜ合わせた中から: m+ n個の技術文献を取り出す組合せ数)::を配置レたので、: X、 ..yは分 母を最大にする数の組合せであるごとから類似率 算出範囲として-; 0≤類似率≤ 1 を保証すること力可能.と¾る
— 更に、 分子の指数 yを y = 1 _ :こ設定することにょゥて、—単純に:混- 在クラスタに含まれる A群及び B-群の-技術:文撒数が; A群及び B'機 技 術文献群から無作為に抽出した際の分布に近い度合いに比例して類似 率の値を補正することが可能となる—。
また、 分子の指数 γを Ί > 1. :に設定ずるごどによつ 、-混在- ラ スタに含まれる A群及び B群の技術文献数 :、 A群及-び B.群の.技術文献 群から無作為に抽出した際の分布に近い.ほ 重要視して大きな値に補 正することが可能となる。 また A群及 X^B.群:の技術文献群かお無作為 に抽出した際の分布に遠いほど軽視して.かさな値に補正すること: 可 能となる。
また、 混在クラスタに含まれる:: 群及:び: R群め..技術文献数 1が 群及 び B群の技術文献群から無作為に抽出した際の分布に近くなくでも-重 要視して補正する必要がある場合.に—は; 分子.の,指 γ _を..:.:'.0 < 7 < 1 に設定するとよい。
下式(式 1 1 ) に、 計算例 1 0— 1 : (式 1 0に条件 i .を代入.し 場合 > の計算結果について説明する。
補正項 2 ( 1 ) のみを考慮して他の.補正項の作用を考慮しな-い場合で あって (すなわち補正項 1 = 1、.;補¾項3 = 1とする)、 .··単純に混在確 率に基づいて比較を行なう場合 (すなわち =:.1' じた場—合) に V技術 文献群同士を比較する条件を、条件 1:〜 4:に設定:した-とぎの類似'率 試 算結果は、 以下のとおりである。.
下記の (式 1 1 ) に示すよう ί¾ '条^:; (^合には 务混在ク.
1に含まれる技術文献の混在確率は 0 .: 4 0 9.と算出される。.,また、 同様にクラスタ 2に含まれる技 文献の ·,混在 率も.、^) . 4 :0. 9 される。
一 6し2 6 C, 混在確率 (条件 1 , クラスタ 1 )
Figure imgf000046_0001
1 2c3
1 5x6
= 0. 4 0 9 :ズ式 1 1 ) 2 2 0 一方、分母の規格化因子は混在クラ:^;タ: 1 混在確率 最大値であ ので、 以下のように規格化因子 =0:. 4 算出 れる また、.条件 1の場合には、 クラスタ 2の規格化.因.予も ,0...:4:0' .9 と算出される ;
規格化因子(条件 1 , クラスタ 1 )
Figure imgf000047_0001
15x6
=0. 409 …(式 12)
220
したがって、 (式 1 2) の計算式に:条件.1:を代入 た場合におけ 補 正項 2 ( 1 ) の値は、 補正項 2 ( 1 =1 ^算 ¾され^。:」同様に、.'.混在 クラスタ 2の補正項 2 ( 1 ) の値.も, 1と-算出さ る。
したがって、 補正項 2 (1) の値は 下.式 式 1.:.3) のように.1-と算- 出されるので、特に補正は行なわれず 、?類似.率は 0: と -算出される。
類似率 (式 10,条件 1)= ¾補正項 1〉x(補正項 2)x(補正項 3)x<5】
Figure imgf000047_0002
O.409.0.409
=0.5 : (式 f3)
0.409 0.409
上記の (式 1 3) により算-出される類似率 (式 1 0に条件 1を代入し た場合) =0.5の値は、 補正を考慮しない (式 1 ) による類似率の演算 結果と一致している。 そして、 技術 ^含まれる技 献数量が れぞれ 6個と 6個であり、混在クラスタ内に含まれる技術文献数も 2M と 1個であるので、 われわれが常識的に考えた類似の程度とほぼ .致 ている。 したがって、 補正項 2 ( 1 ) を挿入した場合であっても許容範 囲内の結果を得ることが可能となる。
下式(式 1 4) に、 計算例 1 0「 2 (式 Θに条件 2を-伐 した場合): の計算結果について説明する。
条件 2の場合のクラスタ Γ:に含まれる技術文献の混在確率は、第 1の 技術文献群 (A群) と第 2の技術文献群 (B群) の大きさの比率に近い ので、類似率を算出する際にはク ^ : を構成す :る技'術文献の'缉在 率の影響を重視して、 類似率を大きく算出するべきな
のは明らかである。
以下の (式 1 4) に、 補正項 2 ( 1 ) の分子を構成する混在確率の計 算例を示す。
— ί 104^1 O0X55 "SO 10 ^100Χ55。50 混在確率 (条件 2, クラスタ 1) =
M+N"m+n 104 + 55。100 + 50 159^150
4598126x3478761
0. 13 ズ式 14)
1.42E+14
一方、分母の規格化因子は混在グラヌ 'ダ 1 (D混在確率の:暴大値 あ : ので、 以下のように規格化因子 = 0. 2 8 0と算出される;^ま ,::条 2の場合には、 クラスタ 2の規格化.因 -も—0 2~8 0と-算措さ.れ:る:^ -.-.
規格化因子 (条件 2, クラスタ 1)
Figure imgf000048_0001
04^9βΧ5Β C52 1.52E + 09 26235
159^1 SO 1.42E*H
=ひ. 280 ··· (式 15)
したがって、 条件 2におけるグ スタ.1の捕!^ 2' ( 1 )?の値ほ、—'.補 正項 2 ( 1 ) =0.404 と算出され:る,。 また、:条件 2におけるクラスタ 2. の補正項 2 ( 1 ) の値は、 「 1.」 と算出されるので-、.下式 (式 1 6 ) に 示すように、 補正項 2 (1 ) に基づぐ類似率は 0.351 と算出される (図 1 2参照)。
Figure imgf000049_0001
上記の (式 1 6) にて算出した類似率 (式 1 0に条件 2を代入した場 合) =0.351の値は、 クラスタ 1に含まれる技術文献の混在確率に引つ 張られ、 類似率 (式 4に条件 2を代入した場合) =0.962から、 類似率 (式 5に条件 2を代入した場合) =0.351に補正された。
下式 (式 1 7) 〜 (式 1 9) に、 計算例 1 0— 3 (式 1 0に条件 3を 代入した場合) の計算結果について説明する。 以下の (式 1 7) は、 補 正項 2 ( 1) の分子を構成する混在確率の計算例である。
1) »"20ΛΒ5 "60 混在確率(条件 3, クラスタ
Figure imgf000049_0002
1.28E + 21x347.8761
=2.98Ε-19=0. 000 …(式 17)
1.49Ε + 46
一方、 分母の規格化因子は混在クラスタ 1の混在確率の最大値である ので、 以下のように規格化因子 =0.133 と算出される。.また、 条件 3の 場合にはミ クラスタ 2の規格化因子も 0.448と算出される。 規格化因子 (条件 3,クラスタ
Figure imgf000050_0001
一 104 "46 65し 24: 7.96E + 29 2.49E + 15
159^70 1.49E + 46
=0. 133
したがって、 条件 3における補正^ 2? ):.— 値は、 補正項 : ) = 0.000 と算出される。 混在クラスタ 2の補正項 2 (1) の値 4ま ^条件 1及び条件 2の場合と同様に 1と复出—き Jl¾
したがって類似率は、 下記の計算によって 0·— 2 5と算出される。
1
類似率 (式 10,条件 3〉= 補正項 1 )χ(補 ί項 2)x(補正項 3)x<5} 全クラスタ .クラ^ ,
Figure imgf000050_0002
1 (0.000 , 0.448
=0.25 …(式 19)
0.133 0.448 上記の (式 1 9) にて算出した類似率. (式 1 0に条件 3を代入した場 合) =0.25の値は、 クラスタ 1に f¾^>¾:術 泡在確率-に引 ^ られ、 類似率 (式 4に条件 3を代入した場合) =0.459か 似率 武 1 0に条件 3を代入した場合) =0. 2 5に補正された。
下式 (式 20) 〜 (式 24-) に、 計算:例 1 0 - 4 (式 1 0に条件 4を 代入した場合) の計算結果について説明する。―
条件 4の場合には、条件 3の場合とク タ: 含まれる技舰文献の量 の総和は同じであるが、 クラスタ 1' び:クラスタ 2に含¾^る技術文谳 A群と技術文献 B群との割合が極端に不均等である場合である。 -したが つて、 混合クラスタに含まれる技術文献数が多いからといって類似率を 大きく算出しないことが望ましい。
補正項 2· (1) の混在クラスタ 1の分子を構成する混在確率 レ Λ¾ 算出すると、
混在確率(条件 4, クラスタ 1)
Figure imgf000051_0001
-6:26E-33 = 0. 000 …(式 20)
2.98E + 42 一方、 分母の規格化因子は混在クラ: タ' l -の混在確率の-最大値-で:ある ので、 以下のように規格化因子 =0.141 と算出される。
規格化因子 (条件 4, クラスタ 1
Figure imgf000051_0002
=0. 141 …(式 2-1 )
したがって、条件 4における混在クラスタ 1の補正項 2 ( 1 )の値は、 補正項 2 (1) =0.000と算出される
一方、 '混在クラスタ 2の補正項 F2 (-1:)——の値は、 以吓.の-ように—補 5fe項 2 ( 1 ) =0.00 と算出される。
混在確率(条件 4, クラスタ 2〉
Figure imgf000051_0003
1.28E + 2il 55 i Λ ήΛ<
■ =0.001 …ほ 22 )
8.34Ε + 25. 混在クラスタ 2の分母の規格化因-子は、二混在—ク'ラスタ:. ¾ 混:在確率 最大値であるので、条件 4の場合には、' 下の.ように規格化因子 =0.194 と算出される。
wCmxN c,
規格化因子 (条件 4, クラスタ 2) MAX 04 c, 4 x 5Sc7)
、 M + Nwm+n J 104 + 55pi 4+ ノ
V xVO ' ^ /¾5E* 16x2; 03E-H.08 159C21 8.34E + 25
=0.194 …(式- 2 -3 -)
したがって類似率は、 以下のように 0 · ; 0— 0 1 .算_出,される.,
類似率 (式 10.条件 4)= ∑ (補正項 1 )χ(補正項 2)x(補正項 a) <5} 全クラスタ数クラスタ =
Figure imgf000052_0001
上記の (式 2 4) にて算出した類似.率 (式 1 0に条件 :を代 Λ ^た:場 合) · = 0.001の値は、 クラスタ 1及び:ク..ラ 'タ.2 ·に含ま:れる '技術文献の 1 混在確率が、技術文献 A群と技術 献 群から:無作為 取:り出した場合 の混在確率の最大値よりもはるかに小さいので、 類似率 (式 4に条件 4. を代入した場合) =0.459から類似率 (式 1 0に条件 4を代入した場合 ) =0.001に補正された。
図 1 -2に、 補正項 2 ( 1 ) を採用した場合の類似率算出例 (補 : ( 1 ) に条件 1 -〜 4を代入した場合の計算結果) の図表を示す ό 同図に示すように、 混合クラスタのうち、 技術文献がよく混ざって:い るクラスタ (混在確率が大きい値を示:す条件を'備えたクラスタ:) では、:. 補正項 2 ( 1 ) の値が大きい値を示 J:でい ·δごとがわかる。 また、 -技術 文献がよく混ざっていないクラスダ(混在確率が小さい値を示す条件を 備えたクラスタ) では、 補正項 2 (1 ) の値がほぼ 「0」 と、 小さい値 を示し、 算出される類似率の値も小さい値を示している。
図 1 3に、 補正項 1 (1 ) 及び输 ' ( Γの双方 ^揉角^ U» の類似率算出例 (補正項 1 (1) 及び補正項 2 (1) に、 条件 1〜4_ , 代入した場合の計算結果) の図表を示す。
条件 1の場合に算出された類似率 = 0.5は、 われわれが常識的]'こ考え る類似の程度とほぼ合っているといえる。
条件 2の場合には、 混合クラスタ .に含ま る技術文献の数量;はクラ スタ 2〜4に含まれる技術文献数量と比べると明らかに多いが、 算出さ れる類似率の値は(式 1 )に条件 2を代入した場合の類似率 =0.5- ら、 補正項 1 ( 1) 及び補正項 2 ( 1 ) を用いて条件 2を代 :^だ場 の類. 似率 = 0.4に補正された。 このように補正項 1 ( 1 ) 及び補正 ¾ l) を用いて類似率を算出することによ s :35;;技翁文.献数の多い ラ- :タ- 1-. についてあまり重み付けをしたくないときに有効となる。'
条件 3の場合には、条件 2の場合と比較: て:クラ:.: ¾タ..[¾,に含まれる技 術文献数量の総和は同じだが、混在クラスタ 1め技術 献数量のみが特 に多い訳ではないので、 算出される類似率の値は類似率 = 0.019に小さ く補正された。 このように補正項 1:: ( 1 ) 及ぴ補正項: 2_ C 1 ) を: «いて 類似率を算出することによって、.:クラスタ、 1に含:まれる技術文献数量の 多さを類似率の算出結果に反映 た L レ、場合: 有効-となる。' .:
条件 4の場合には、条件 2の場合 ½較 て ラスタ内に含ま: る技: 術文.献数暈の総和は同じだが、混在クラ ^ や混在クラスタ が特に 大きい訳ではなく、 技術文献の混ざり具;合がざ 極端なとき、 類似率- の値は類似率 = 0.0005に補正されている。—こ (^よ:うに補正項 1 (: 1 )及 _ び補正項 2 ( 1) を用いて類似率を算出 こと.に:よ :づ'.て'、 混在クラス タ内の技術文献数量が多い場合であ て.も、.我術文献 ^ざり ^ "具合が不 均等である場合には類似率を小さく算出する '方向 .こ-捕正する.こと;^可 能となる。
すなわち、 補正項 1 ( 1 ) 及び.補 E項 2 .を用いて類似率お算: ftl: することによって、 技術文献数氣の务、混在,グラス:タ;を重 «I.し—て類似 率を補正するとともに、 技術文献.の混ざり.具合が不均^ rな場合に 、」類 似率を小さい値に補正することが可能となる。
また同図に示すように、 補正項 2: ( 1 の _計算式-では、:補正項の j直が:. 技術文献の混ざり具合に敏感に反応する:.傾向が る:の:で、適: の.値-を 調節する必要が生ずる場合:もあると.考えられる。:そ^て-、-浪在汐:ラス-タ . 内に含まれる技術文献の数量に づレ:、た補:: &と^ グラスタ:内 _に含ま れる技術文献の混ざり具合に基づく補 ¾と,は、:上 ¾ のよ にそれぞれ ¾ 接な関係があるので、 ctの値どともに:. γ-の値.を適宜定 るこ.とも熏.要で: あると考えられる。
なお、 図 1 3は a = l、 :y = 'と ¾ 場食の f^ :であ が、—例 α = 1のままと ϋて γ =0.25に設定 -して試算:レて る-と、条件 の類 ig 率 =0.5→0.5、 条件 2の類似率 O 4→.P.7 9、·:.条件 3の類似率 =Q 0,19 →0.019、 条件 4の類似率 = 0.0005→0.Ό33 と算出.す-る- とが.^!能とナ: る。
応用型 3 :補正項 2 (2) の算 m例:
補正項 2 ( 2 ) は、 混在クラスタ内に,おけ:る技術文献^ 'ii yi; . て類似率を補正する補正項である。
第 1の技術文献群 ( A群) と、第 2 術文献群. ( M) -に:含まれる 技術文献の数量の比が大きく異なる.場合には:、-备渴在クラ:スタ.こ含ま ¾ る技術文献の混在比も当然異なるはず:である ^ま-た、 両群 含ま る抜 術文献の数量が拮抗しているほど:、「ク-ラスタに; _含ま.れ—る技:術文献の混在 比は第 1の技術文献群 ( A群) 及 第 2の.技:術文献 (Έ群) に急まれ: 技術文献数の数量の比 (構成比). 近くなると考える: -が.妥 ¾で る そこで本発明では、 第 1の技術文献耱:(A群) ¾ぴ第 2-の技術文献群 (B群) に含まれる技術文献数の構成比 '/ .M .多.クラスタ [^におけ る技術文献数の混在比 n /mにつ.い-て、 -更 fc構成比と混在^ を取 つたものの 乗 (但し、 0く ξ) ヒ例:じた補正値を、 類似率を算出す る際の補正項として設けている。
すなわち、 第 1の技術文献群 (八:群:) : -び第.2_の 術文销群^ 群:): に含まれる技術文献数の構成比 Ν 各ク 7.ス .¾に:おけ:る:技術 ¾ 献数の混在比 η mが近いほど類低藥を高 設定す . (- 1.に近づ:ける.): ための数式である。
したがって補正項 2 (2) の値: 、 第^.の技術文献群 : A:群) び第 2の技術文献群—(B群) に含まれる ί技術^:.献数 p構成 ½ 条タ.ラ .タ. 内における技術文献同士の混在比 ^ な }5ど 1 : ¾小さ 直 ¾取: 。
Figure imgf000055_0001
補正項 2 (2) を考慮した類似率 算:出例を 以 | .. J式 2,6) に示
類似率 ∑i (補正項 1 )x(補正項 2)x(補正項 3)x5}
Figure imgf000055_0002
上記-の (式 2 5 ) 及び (式 2 6 ) に :示すよう-に.補正項 2 : ( 2 ) では、 技術文献 A群及び技術文献 B群の構成比と 各クラスタ內にぉ:ける技:術 文献同士の混在比が同じであるほど類似率を高く設定す-る ( 1に近づけ る) ために、 分子には 「Ν Ζ·Μ又は Πメ mの小さい方:」 を配僵し、—分 には 「 Nゾ M又は n " mの大きレ、:方」 —を配置:して;ぃる。
この場合に、 技術文献の混在比 / さ.: 在クラ.:スタ^影響 _を 類 率の算出結果に大きく反映させた.ぐない.場合には、 補正項の指数 ζを ζ〉1 に設定するとよい。
また、 単純にクラスタ内におけ::る技術文献- 混在比に応:じて類似率:を 増減させる要望がある場合には、 ^ -,ι— :: 設定- -ると-よい.;
また、混在比が大きい混在グラスタの影響を類似率の算出結果に大き く反映させたくない要求がある場合には、 0く ζ <_ 1 に設定するとよ い。
— 以下に、 類似率の計算に際して補正項 2 ( 2 ) 參;合 Γの禅用お ついて説明する。
補正項 2 ( 2 ) では、 分子に Α群と Β群の技:術文献数 構成比又は 各クラスタ内における技術文献同士の混在比のい れ 小:きい方を配 置し、分母に A群と B群の技術文献数量の構成 .又は各ク rラスタ内にお ける技術文献同士の混在比のいずれか大きい方を配置するよ-うに'した ので、 A群と B-群の技術文献数量の構成比と各クラスタ内における技^ 文献同士の混在比が同じで:あるほど類継率を高く算出する 1に近 . る) ことが可能となる。 また、 A群と B群の技術文献数量の構成比と各 - クラスタ内における技術文献同士の混在比が異なるほど類似率 小さ い値に算出することが可能とな 。-.
- また、 A群と B群の技術文献数量の構成比 、 '各グラスタ内における 技術文献同士の混在比との比を算出してい ので、類似率の算出範囲. 0≤類似率≤ 1 を保証することが可態^?:!^
更に、 指数 ζを ζ >—1 に設定することによって、 Α群と Β群の技 術文献数量め比と、各クラスタ内における技術文献同士の混在比との比 が小さい混在クラスタの影響を、類魁率の.算出結果 大きぐ反映させな- いよう'にすることが可能となる
また、 指数 ζを ζ = 1 に設定する: ^:^ で、..単純に 群' . 群の技術文献数量の構成比と、备クラ::スタ:内 -おけ—る技術文献同土の混 - 在比との比に応じて類似率を増減ざせる £ 可能となる- 単純混在比- ; 比較)。
また、 分子の指数を 0く ζく 1: に設定^ ¾ によって:、 ^:群と: Β: 群の技術文献数量の構成比と、 クラスタ內 お る技術文献同士の混 在比との比が大きい場合に頻似率の.:算出結: に対す.る影:響 少な.ぐ i-す ることが可能となる。
補正項 2 (2) のみを考慮して他 (^補 項 作甩¾考慮レ」ない場合で あって (すなわち補正項 1 = 1、 捕 ¾項.3:= 1とす .)^単純混.在 比: 較を行なう場合 (すなわち ζ =1). に、 技術文献群同士を比較する条件 として、 (式 26) におい Τ条件 1.〜: "4-に設鬼 _した場合の領似率の試算. 結果を以下に示す。 なお、 算出結果は、..図. ΐ- に、 補正項 2 (2) を採 用した場合の類似率算出例 (補正項 2/ (-2) に条件 1〜 4を代入した場 合の計算結果) の図表として示す。: - 下式(式 27) に、 計算例 26U ( : 2 . 条件: を代 :レだ場合): の計算結果を示す。
条件 1では、 第 1の技術文献群 (Α群.): μ 技術文献数量は .6:.:個、 第 2: の技術文献群 (Β群) の技術文献数-暈:も「:6個—であ _る—ので、: 群と群 辨; の技術文献数量の構成比は 1対 tである。
—方、 条件.1の場合に各混在クラスタ— ク _ラ タ :1-及び ラスタ' 2 ). _ に含まれる技術文献数は、第 1の技術文献群: ( A群)の技術文献が 2個、 第 2の技術文献群 ( B群) の技術文献:が おる Jの 、 混在比は.2対 1である。
したがって、 クラスタに含まれる:^術; ¾献 混在—玲;による.類似率の補:; 正-の影響は、 少なからず存在する と' 待:.される。. 類似率 (式
Figure imgf000058_0001
下式(式 28 ) に、計算例 2 6 2· (式 26- 条件 2.を代入した場合). の計算結果を示す。
類似率 3 5} x<5
Figure imgf000058_0002
=-x1. 891 =0. 473.·· (式 28) 下式 (式 2 9 ) に、 計算例 2 6— 3 (式 2 6に条件 3を代入.した場合) の計算結果を示す。
条件 3の場合には、 条件 2の場合とクラスタに含まれ 技術文献の量 の総和は同じである力 S、混在クラスタ 1に含ま る:技一術:文献の混在 ¾^、- 第 1の技術文献群 (A群) と第 2の技術:文献群 (B群) の構成比と大き く異なる状況である。 したがって類似率を算出する際に、 '混在クラ ¾タ 1に含まれる技術文献の混在比率の影響が条件.2 ®場合ぼどほ生じな : : いことが望ましい。 、·■' 類似率 (式 2 )χ(補 j∑項 3 ) · :一' x(補正項 3 )χ δ
Figure imgf000059_0001
Figure imgf000059_0002
上記の(式 2 9 )にて算出した類似率(式 2 6に条件 3を代入) = 0.·2 9 の値は、 混在クラスタ 1-に含まれる技術 献の^在比:が ΰ第 1の窗实 - 献群 (Α群) と第 2の技術文献群 (Β群) め構成比 :と異 ご-どから.:、 類似率は少なく補正される。
じたがって、 補正 2 ( 2 ) の演算処理を行なう'ことによって、 混在ク ラスタに含まれる技術文献の量が多い場合であっても、 その技術文献の. 混在比率に応じて類似率を補正する^:と 可」能となる。: - . 下式(式 30) に、.計算例 2.—6— 4ズ.式 26に条件 4を代入した場合) め計算結果を示す。
3 x6]
Figure imgf000060_0001
上記の (式 30) にて算出した類似率 (式.2' に条件 4を代入した場 合) =0.029の値は、 クラスタ 1及ぴクラスタ 2Τ .含まれる技術 献 ー, 混在:比が極端に不均等であるとともに、 混在ク. スタ 1 混在クラろ タ 2の混在比が第 1の技術文献群 (Α群) と第^め技術文献群_(Β群) の技術文献数量の構成比と大きく異なるので- 類似率が少なく補正され る。
図 14に、 補正項 2 ( 2 X:を採'用^た#^類似率算 例 1& . (2). に条件 1 4を代入した場合:め計算結果-): iの図表を示 。:^ 条件 1、 条件 2における混在クラス^ 1"¾び混在 , ス 2 並びに条 件 3における混在クラスタ 2は、 図 .9.' 示すように.技術文.献がよ X:混:ざ つている状態であるといえる例 4混在クラ タ ;^ る技撒:^献 混 比が、 第 1め技術文献群と、 第 技術:^献群に食 *れ 拔術文爾 数: 量の比に近い場合) である。 この場合.にゆ、:補正項の藏 劐合に大きん 算出し、 類似率め値を大きくする効果があ 。: — - 逆に、 条件 3の混在クラ タ 1及び条件 4の各混在クラスタは.、 技術 文献がよく混ざっていない状態であるといえる (混在クラスタにお る 技術文献の混在比が、 第 1の技術文献群ど、 第 2の技術-文锨群 -含ま る技術文献の数量の比と大きく異なる學合と え ) ので、 補正 '項の値: を小さく算出し、 類似率を小さ 値 ϊ¾¾ι る- i?mが る。 :'
. しこがって (式 4) に示したような、 補正項.1 ) と組み合わせて 類似率を算出することによって、 技術文献群同士が^め程度技術的に関 連があるかを示す類似率の算出制度 向,上き る H可能となる。' - 図 1 5に、 補正項 1 (1) 及び補正項 2.. (2) を採用""した場合の類似 率算出例 (補正項 1 (1) 及び補正項 2 (2J Jこ条 tU〜4を代 した 場合の計算結果) の図表を示す 9
同図に示すように.、 補正項 1 ) 及ぴ補年'¾2 (—2) 'を甜.ぃ '計算 式に条件 1を代入すると、 ^ラスタ内に-含まれる技^ f文献数量と混在比 率に応じた類似率を算出するので 条伴- を代: た場合の類似率 ^ 0.25の値は、 (式 1 ). に条件 1を代入した場合 (補正^なしの場合) の 類似率 =0.5の値より小さいが、 カ^^り期待した値 近:く,、. 抉術 :献群' 同士の技術の類似性をよく表して.いると.霞える ό
また、 補正項 1 (1) 及び補¾ 2 (2): 用-い. 計.算^;に^ 代入すると、 クラスタ内に含まれる 嫩¾#量 <混¾ ^率 ¾ :じた類 似率 ¾:算出するので、 類似率は ( 1) に条件 2 ¾f¾ J fe¾^纖 なしの場合) の類似率 = 0.5から 補正項 1及び補正項 (2)_を甩—い て条件 2を代入した場合の類似率 0 09 iこ補 :さ 、 カなり,期;待し; ^ 類似率の値に近く、 技術文献同士 類似性:をよぐ表 でいると霧. る このように補芷項 1及び補正 ¾2 : ( 2 ) ^ ^ζ頻 率を算出 とによって、技術文献数の多いク-ラス 1につい: 童み {Φϋιをする; , が可能となる。
また、 補正項 1 (1) 及び補正項 2 (¾) .を: ¾いた計算式に条件 を 代入すると、 クラスタ内に含まれる技術文献数量と混在比率に応じ ·¾.類 似率を算出するので、条件 2の場合と比較 てク-ラ タ内 含まれる技-:. 術文献数量の総和は同じだが、混在.ク.ラスタ' 1の技術文献数量のみが特:. に多いわけではなく、.かつ、 クラスタ- 1内の技術文献の混在比率が第.1 : の技術文献群 (A群) と第 2の技術文献群 -..CB群,) の技術文献数量 ^ ;; 率とも異なる場合にば、 クラスタ iの存在、を特 1こ重視:,しないようにする - ことが可能となる。 ' , ここで算出される類似率は、 (式 1.)-に条件 3を代入,し 場合 補正. なしの場合) の類似率 =0.5から、:—補-正項 1及-び補正項.2. :( 2·)Γを甩い::: て条件 3を代入した場合の類似率 ί=0.111に捕正-ざれ.、.かな _り.期特 値に近く、 技術文献群同士の類似性—を表:している,:ど言.える。 .
また、 補正項 1 (1) 及び補正項:.2::.('- 2).:;を—用いた計算式.に.条件 H. 代入すると、 クラスタ内に含まれ¾„技術文献数量と混在比率に-応_じた鎮 似率を算出するので、条件 2の場合と比較してクラス,タ内に含まれる抉:: 術文献数量の総和は同じだが、混在クラスタ Iや混在タ ス 2-が特に. 大きいわけではなく、 技術文献の混ざり具合が.さち 極端な場合で、 混- 在クラスタ內における技術.文献の混在比.が.、—. A群と ¾群 教術文:.献数の. 比と大きく異なるので、 類似率に反映 る影響が :さぐな.つている ここで算出される類似率は、 (式. iy ·ίこ条件, aあ tfc.場合-:.: (補 なしの場合) の類似率 = 0.5から、 捕正項 及-び捕正項 2..(2) 母い て条件 4を代入した場合の類似率 0.0Γ9に,補正- れ-、 かなり期待:し : 値に近く、 技術文献同士の類似性-を.よ-ぐ表-しで . 、ると.言,える。.:: リ .:: 応用型 4 :補正項 2 (3) の算出例
以下に、 混在クラスタ内における技術文献の.期待修差†こ基づぐ:補正 ついて説明する。
あるクラスタ内に含まれる第 1の技術文献群: (:A群): ,技術文献. 数: 量 Mと、 第 2の技術文献群 (B群) の技術文献 .数量 'と力 : A.群と ·Β· 群から無作為に抽出した際の期待値 : (¥ (M+N)) に近いほど、 良 く混ざっていると考えるのは自然であ ¾ : (前記 (式 9 ) に示しだ確率 比、 又は (式 2 5) に示した混在比と- ½:ぶ第 3の混ざり:具合の定義であ る。)
そこで本発明では、第 1の.技術^献群::. (: 群.).と第 2の技術文献群.' (Β' 群) とを混合した技術文献群の中力 ら、:第 1'の:技術 ¾献群 (Α群) の技. 術文献を取り出す確率 (Μノ (Μ Ν)) :に、 混在クラ jス:タに含:ま:れる: 技術文献数 (m+ n) を乗算しで第 1: 技術文献群:(: A群):の技術文献 を取り出す期待値を算出し、 そ (^期特値 'と:混合:クラスタに含まれる第 ¾ の技術文献群 (A群 )_ の技術文献数 との姜を期待値差: : (式: 3 JL ) - 参照) として算出し、 この差が小-さ Λ、ほ (0に いほど. 類似率が高-. くなるように補正する演算を行なう . .
以下の (式 3 1 ) に期待値差の算 ffi例を す。
Figure imgf000063_0001
…(式 31)
Μ + Ν
図 1 6に、 上記の (式 3 1 ) に条件 1:〜 · 4を代入-しお場合の期.待値差 の算出例を示す。
上記の (式 3 1 ) による計算結果:^;.らも ^. :とお:り、 あるク :タ— 内に含まれる A群の技術文献の数量と、 B群の技術文献の数量-と-が、 A 群と B群から無作為に抽出した際の期待: fit ¾いほど、 そ. タラ-ス 重要視して類似率を補正する場合に.は、:図 1-61こ示す期待値差を負の数 にして指数部分に置くとよい。
負の値にした期待値差を指数部分に K置する- とによ όて、.揮在クラ: スタに期待値どおりの技術文献が存在する場合には .期待値差 =ιΘ¾ り、 指数 = 0の場合には、 補正項 値を 1と算出する;ことが可能となる からである。 ところが、 期待値の'ままだ-と混ざ 具合だけ:で-なぐ所定 混在クラスタの大きさにも依存してしまうため、期待値差をクラスタに 含まれる技術文献数で除算するとよ.い:。 '
このようにして求めた補正項 2 ( 3 Lの—実施例.を-以下に示す。
補正項 2 (3) =
Figure imgf000064_0001
但し、
:任意定数であって、 〉 1 .とする。; 上記 (式 3 2) のように補正項 2を算出することによって、 例えば、 クラスタの大きさが 1 0 0で期待値差が 1 0の時とクラスタの大きさ が 1 0で期待値差が 1の時の補正 同. ノょ„¾。.. なお、 の値を大きく設定するほど期待値差に対して敏^感 (ピ反応して, 類似率を小さく補正することが可能とな "。 、
図 1 7に、 0とした場合において Γ t式" 3: に条 .丄 4を 代入した場合の類似率算出例を示す。
囪 1 8に、 補正項 1 ( 1) 及び補正項 2 (3) を採用した場合の寧 率算出例 (補正項 1 (1 ) 及び補正項 2: (.3) 条件-:!〜 4.を代 レた- 場合の計算結果) の図表を示す。.
同図に示すように、 補正項 1 ): び捕正項 :2 t3) 用:い 計算„ 式に条件 1を代入すると、 グラスタ内:に含まれ 枝術文献数量 idi持値 差に応じた類似率を算出する (あるク;:ラ'ヌタ:内に含まれる..第.1. 技術文 献群 (A群) の技術文献の数量ど; 第 2の技術文献群 ( 群—) 技術文. 献の数量とが、 A群と B群から無作為こ:抽出レた際一の期待値に近い程類 似率を大きく算出する補正を行なう:: Lので、補正項 ,¾·及^捕正項?. ( 3 ); を用いて条件 l—を代入した場合の類似.率 =:0. 40.:-は、 ·(¾ 1 ').に条件 ': 1を—' 代入した場合 (補正なしの場合) の類:似率 = 0: 5. 値:に近く:、 期待.した: 値に近い値を算出することが可能とな:づて'レヽる—。:
条件 2の場合には-、 混在クラスタ: 1ゆ、 クラスタ.一 2: -〜 .4::と比べ と混; 在クラスタに含まれる技術文献数 大き: 持値差も少なレ、ので 混在クラスタ 1に含まれる技術文献 櫸成 (^影響を.重視すべきである。 補正項 1 ( 1 ) 及び補正項 2 ( 3 ) を用いた計算式に条件 2を代入す ると、 クラスタ内に含まれる技術文献数量と期待値差に応,じた類似率を 算出する (あるクラスタ-内に含 あ 術 ¾献 i (A群) ^ ¾ 文献の数量と、 第 2の技術文献群 (B群) の技術文献の数量とが、. · A群 と B群から無作為に抽出した際 期待値に近い程類似率を大きく算出 する補正を行なう) ので、 補正項 1.及 捕: E項- - (-.3-) .を いて条件 を代入した場合の類似率 = 0. 935 は、 (式 1 ) に条件 1を代入した場合 (補芷なしの場合) の類似率 = 0. 5の-値よ.り,大きぐ 正さ.れ C:お の値は期待した値に近い値となる-。 -- 条件 3の場合には、前記 条件 2 場合;と化較:レてクラスタに含 る技術文献数量の総和は同じだが、混在ク-ラスタ 1 :けが特:に大き;い ではないのでクラスタ 1を特に重視しなレ.、ゆずで る-。 ま二た: 混在ク;;ラ— スタ 1に含まれる技術文献は、 第 1 .の技«文献群 (Α·群 と.第 .. .技術 文献群 (B群) から無作為に抽 mし.た際の:期待値:と大ぎく..異^ gる-ので、. 混在クラスタ 1の期待値 ¾ ^大きさ 引 張ちれ類似率は小:さ:ぐ:算出: されるはずである。
補正項 1 ( 1 ) 及び補正項 2 ( 3,) を用 ΐ、お計算式に条件 _3を代入す ると、 クラスタ内に含まれる技術文联黎量と期待値差に応:じた類似率を:. 算出する (あるクラスタ内に含まれる:第 1 術文献群- ( Α群):の技術: 文献の数量と、 第 2の技術文献群— (: 技 :術 の数量と力 、 A と B群から無作為に抽出した際の期待値 近い獰類似率を:大:き...く集出' する補正を行なう) ので、 補正項 1及び摘正項 2. (:3丄;を甩いて条件 3 : を代入した場合に、 類似率 = 0. 2Q7 .と箅出 れる の類似率の値お斯 待した値に近い値である。
条件 4の場合には、条件 3と比べてク:ラ タ内に含まれる技術文献数 J 量の総和は同じだが、混在クラスタ や^ ¾ク タ:..2:に含ま; fe¾技術 文献数量が特に大きい訳ではなく、:混ざり具合 さら. —極端な場合なの ^ で、 混在クラスタ 1の重み付けに引づ張ら-れな. こ:ど 望ま い。 - 補正項 1 ( 1 ) 及び補正項 2 ( .3.) を用いた:計鎖 ^!^:を.代 す:; ると、 クラスタ内に含まれる技術文歉数量と期待値差に:応 た類似率を. 算出する (あるクラスタ内に含まれる第 rの技術文献群:: ( A群) ^の技術: 文献の数量と、 第 2の技術文献群 (B群) の.技術文献.の数 どお A翁: と B群から無作為に抽出した際の期待値 jこ近い ¾^似.率'を大き:く算出: する補正を行なう) ので、 補正項 1及ぴ捕正項 2 (:3 ') を用い 条件 4'. を代入した場合には、類似率 = 0.14Ό k算出:される。この類锻率.の-値お.、' 期待した値に近い値である。 産業上の利用可能性
—本発明によれば、 特許文献又は技報等の技術文献から構成-ざれる第 F の技術文献群と第 2の技術文献群との技術的; 類似性を.判断: る :め の指標を算出する類似率算出装置であ:つて、 比較対象と:なる:第: ι¾ ^技術- - 文献群及び第 2の技術文献群を入.力する技術文献群入:力:手段と キ^ ^: ードゃ I P Cなどの技術情報を入力する.皮術情報入力手段と:、:第 1の 術文献群及び第 2の技術文献群 含まれる技術文献に^) ^前記^^^ した技術情報を含む技術文献を検索:して該検索-した技術文献をそれぞ れの技術情報毎にクラスタ分解する' ラスタ分解手段と.、前記クラスタ. 分解した結果得られた全クラスタ数と第 I—の技術-; ¾献群-及ひ:第.2 (©雜_ 術文献群の双方の技術文献を含..む混在クラス^数欽との を類綱と: ΐ て算出する類似率算出手段と、 前.記算出: た類似率を 1&録¾ ^^表 ; 段、 又は通信手段に出力する出力手段とを備えたので、 その 解し 全. クラスタ数と混在クラスタ数の比:に基 て、::技術文献群^記 :され: いる技術内容の類似性を示す指搽を.簡便 算 する :とカ可能となる o - また本発明によれば、類似率算出手段.に.各混在クラス―タに含まれる技 術文献の量に応じた値を取る第 1の.補正値と、各混在クラスタ.に含まれ る第 1の技術文献群の技術文献と第 2.の技術文献群の被術文献と 混: ざり具合に応じた値を取る第 2の補正値とを乗算 1?_たものを、各混在 ラスタについて総和を算出して、全クラ.;スタ数で徐算して類似率を.算出 する機能を設けたので、補正項 1の存在こより混在クラスタに:含まれる 技術文献の量に応じて重要度が高 ことを意味付ける捕正が可能 な るとともに、補正項 2 存在にょ¾:混在クラスタに含まれる技術文蒙の 割合が所定の量に近い程、 重要なクラスタ; あると-して、 -類似率が髙 ¾ 値を示すように重い重み付けをして、:類似率の算出結果を、.,より:. 感 ' 覚に合うように捕正することが可能':と,な: ¾。;
従って、補正項 1及び補正項 2:を用いで類似率を -算出する:ことに,よ ¾ て、 技術文献数量の多い混在クラ:スタ.を重要視—レて類似率..を補正すると ともに、 技術文献の混ざり具合が不均一な場合には、 類似率を小さい値 . に補正することが可能となる.。
また本発明によれば、類似率算出手段に個々のクラ タ 技術文 数の α乗 (但し、 0く α ) に比例し;た-補正値を各混在 ラ タ
総和を算出し、全クラスタ数で除算 て類似率を算出する機能を設け:た- ので、 クラスタ内の技術文献数が多 、 ど重要な ラスタ^?ある:とする: ような類似率を算出するこ が可-能となる。
また本発明によれば、類似率算出.手段に個々のクラ:スタ内の技術^献, 数の α乗 (但し、 0く c ) を、 全クラ タ数等の規格化:因子で除算レ 類似率 算出する機能を備えたので、 . Q—≤類似率≤ 1— :を保証する:こ^ が可能となる。 また、 規格化因子 して全クラスタ内の技術文献数 _の平 均値を配置したので、全クラスタ内:の.技術文献数の.平均値.を基準:と ^: 技術文献の量の多少を算出するこ ϋ可能どなる。
また本発明によれば類似率算出手段に.、第 1の技謝文献群.の.,中から - 個、 第 2の技術文献群の中から n個の技術文献-を取り出す確率の:: y乗::(' 但し、 0く γ ) に比例した補正値 备混在クラスタに-つ:い: :総和-を: _算出 し、 全クラスタ数で除算して類似率を:算出する機能を設けた。」すなおち 、 類似率算出手段に (A群の中かも m個、 .群の中がら 個の技術文献 を取り出す組合せの数) / ( A群と: :3.群. を混ぜ金おせた中から Ηΐ ΐ' β 個の技術文献を取り出す組合せ数:) を分:子に配置した演算.を:行なう機能 を備えたので、 混在クラスタ:に含まれる Α群及び: Β群: 技術文献数の僻 り (作為性) に応じて、 偏り大の場合は. さい補正値に、 偏り小の場合. は大きい補正値に類似率を補正す ¾·こ.とが可能と,なる; また、 規格化因 子として、 第 1の技術文献群の中..から m個.、 第 2.·術文献群の中.がら n個の技術文献を取り出す確率の凝大値—の ¾ (但レ、 - Q yj を配置' したので、類似率の算出範囲.とし -p.≤類似率 ¾1 ;;を保証する.こ-と^ 可能となる。
また本発明によれば類似率算出手-段.に、第 : 技術文献群.に:含 _まれ Tる 技術文献数 Mと第 2の技術文献群に含ま:れる技術:文献数 との構成比、: N /Mと、 クラスタ分解した結果-得:られ 混在.ク スタ.に含まれる第: 1 - の技術文献群の技術文献数 mと第: 2 技術文献群の.技術文献数 nの混 在比、 n /mとについて、 更に構成比と混在 -と-の比を.取 た:も:.の : ζ 乗 (但し、 0く ζ ) に比例した補正値を各混在クラスタにつ.いて総和を 算出し、 全クラスタ数で除算し 類似率を算出 tる機能を備えた で、、 A群と B群の技術文献数量の構成 と各-クラスタ内 おける.技舞文献 同士の混在比が同じであるほ;ど類似率,を.高ぐ算出. irる…( 1 :に近づけ:る) - ことが可能となる。
また、 構成比と混在比との比 指数 を : > 1 に設定する と こ よって、 A群と B群の技術文献数彙 tt: 、:务クラ^タ内 おける技術 文献同士の混在比との比が小さレ、:温 ク ス:タの影.響を、 -瀕 率 :算出 結果に大きく反映させない.おうにす ;^ が可能となる:。
'また、 指数 ζを- ζ = 1 に |¾定す¾こと .よ; D:て. 単純に Α群と:^ 群の技術文献数量の構成比と、各クラ タ におナ,る技術文献,同 -混 在比との比に応じて類似率を増減:させ iる..こ ^可 なる'。
- また、 分子の指数を 0ぐ ζ く :に設定するこ..と J.こよって; Α群.と: Β, 群の技術文献数量の構成比と、各久ラ タ内における.技術文献:同士の舞' 在比との比が大きい場合に類似率の算出結果に対する影響を少なぐ _. ることが可能となる。
また本発明によれば類似率算 手段.に:、第- 1. 技術文献群と第' の技. 術文献群とを混合した技術文献群の:中から第 1..の技術文献群の :技術文:. 献を取り出す確率に前記クラスタ分解レ£混在クラ タに含まれ 技' ; 術文献数を乗算して第 1の技術文献群の技術文献を取り出す期待値を. _ 算出し、前記期待値と混合クラスタに含まれ.る第 1:の技術文献群の技術.. 文献数との差を期待値差として算出し、 その期特 ft差を _任意定数. ξ -Ai : し、 1く ) の負の指数とした補 JE値を、 各提在ク. ス; いて総和こ を算出し、 全クラスタ数で除算じで親似;率と算出するようにした φで、: ξの値の設定に応じて期待値差に対 tる—類似率の算出:結果—を:敏感に5反 応させる補正を行なうことが可能: -となる。;:
また本発明によれば類似率算出手段に:、第 1-の技術文献群:と第:.2_ 技.. 術文献群とを混合した技術文献群 中から第 1 技術文:献群 (^技術^ - 献を取り出す確率に前記クラスタ分解:した:混在.クラスタに:含まれ 術文献数 乗算して第 1の技術文献群の技術文献を取-り出,す期-待値を二 算出し、前記期待値と混合クラスタに含まれる第- 1の技術.: δ;谳群 . :術; 文献数との差を期待値差として算出し、 その期 値差を混在ク¾スえ^ - 含まれる技術文献数で除算したも.のを-、 t定数 : (低レ < V : 食の指数とした補正値とし、 これ: ¾务混在 ¾ スタについて総和を算出 し、 更に全クラスタ数で除算して類鍵と翁出す 5»^ にしたの , ξ: の値の設定に応じて期待値差に対する類似率 算出結 _果を.敏感 させる補正を行なうことが可能とな Γな。

Claims

請求の'範囲
1 . 特許文献又は技報等の技術文—献かち構成され :る第 1の技術文献群と 第 2の技術文献群との、 技術的な-類似性 :を判断するた の指標を算¾—す- る類似率算出装置であって、
比較対象となる第 1の技術文 m群及び第 2お技術文 群 ^入 する一' 技術文献群入力手段と、
キーワードや I p Cなどの技術情報を A¾f ¾技 « 入 丰段と :、 第 1の技術文献群及び第 2の技術 歃群 含ま る ¾術文 い て、 前記入力した技術情報^含む技術文 を検索し τ、 該検索し —技術 文献をそれぞれの技術情報毎に ^テスタ分解 る ラス歹 解 ¥擾 : 前記クラスタ分解した結果得られ ^ク ス 7タ数ど、. i :技術文献 群及び第 2の技術文献群の双方の ^ t献を含む—混在—タ ス '数— :と-め 比を類似率として算出する類似率 出 段 :
前記算出した類似率を記^手段:'、 ¾¾'¥段 ¾ 通信手段 ¾¾す- 出力手段と、
を備えたことを特徴とする類似率 m装
2 . 特許文献又は技^等の技術文献から檎 る第 :ι -技 文 群^ 第 2の技術文献群との、 技術的 窗微& ^判 tf¥るた ¾指^"を す る類似率算出装置であって;' '
比較対象となる第 1の技術文献 ^及^第 2あ ¾術 献群を ずる 技術文献群入力手段と、
キーヮードゃ I p Cなどの技術情 ¾ 入力す-る技 If ¾X力羊段^ 第 1の技術文献群及び第 2の技術文 鮮に含まれ ¾技術女献 ヽ て、 前記入力した技術情報を含む技術文献を検索して、 該検索した技術 文献をそれぞれの技術情報毎にクラスタ分解するクラスタ分 手段と、- 前記クラスタ分解した結果得られた全クラスタ数と、 第 1の技術文献 群及び第 2の技術文献群の双方の技術文献を含む混在クラスタ数を算 出するとともに、 - . ..;.,-■ 各混在クラスタに含まれる技術文献の量に応じた値を取る第 1の補 正値と、各混在クラスタに—含まれる境 1の^術文鞑群 技術^献 第 2 の技術文献群の技術文献との混ざり具,食に応:じた値を ¾る ·2の補正 5 値と,を乗算したものを各混在クラ タについて総和を算出し、前記算出 . した全クラスタ数で除算して類似率!:.寧出する類似率算 手段と、 . V 前記算出した類似率を記録手段、表示手段、—又 ·.は通信手段に出力する 出力手段と、
を備えたことを特徴とする類似率算出装置。 _ - 0
3 . 特許文献又は技報等の S術文献か, .構成さ ¾ 第 技術: ^葛群-と. 第 2の技術文献群との、 技術的な琴 'lま- . 断す ό め—の指:標 算出 . る類似率算出装置であって、
比較対象となる第 1の技術文 群及び.第 2.の技^文雜群を入 ..する— 技術文献群入力手段と、
5 キーワードや I P Cなど ρ技術情報 ¾入力する技 't f 力手^
第 1の技術文献群及び第 2の技術^献群に含まれる技術文献につ-い て、 前記入力した技術情報を含む转術文献を検索 ^て.、 該検索した珠術 文献をそれぞれの技術情報毎にクラス 分解する^ラスタ分解爭殺-と.、 前記クラスダ分解した結果得 れた,垒クラ^タ尊 t、第 1 .技術;^献 0 群及び第 2の技術文献群の双方: 69技銜^献を貪む混 ¾久ラスタ数を算 -. 出するとともに、
個々のクラスタ内の技術文献舉の _ α犟 . (但し、., 0 < α ) に比例した補 正値を各混在クラスタについて総禾 tl . 算 W 前記.算出レた垒ク スタ 数で除算して類似率を算出する類^率算 手—段と、
5 前記算出した類似率を記録手段、 表示手段、 又 通信手段.に出力-する 出力手段と、
- を備えたことを特徴とする類似率算出装置。.
4 . 特許文献又は技報等の技術^:献から構成きれる第. の技 文献群と. 第 2の技術文献群との、 技術的な類似性を判断するための指標を算出す る類似率算出装置であって、
比較対象となる第 1の技術文献群 ¾;び第 2 技術文献群を入力する 技術文献群入力手段と、 .
キーワードや I p cなどの技術情報を N力する技術情報 力 段と、. - 第 1の技術文献群及び第 2の g術 ¾献群に含まれ 技術^献に い' て、 前記入力した技術情報を含む技術文敝を検索して、. 該検索.した技術 文献をそれぞれの技術情報毎にクラスタ,分解するクラスタ.分解 .段,と:、. . ― 前記クラスタ分解した結果得ら一れた—全 ラスタ数どい第 1の技術文献 群及び第 2の技術文献群の双方の技術文:.献を含む混在クラスタ数を:算. 出するとともに、
個々のクラスタ內の技術文献数 (但. ^ ¾ ) 規格化,因子: で除算した補正値を各混在クラス に; 、 和 算出 前記算出 _し た全クラスタ数で除算して類似率を算出す;る類似率算出手揆と、 .:し 前記算出した類似率を記録手段 s表^;手段.、.又は通信手段に出力す 出力手段と、
を備えたことを特徴とする類似率算—出装置。
5 . 請求の範囲 4に記載の類似率算出:装置に-おけ 前記規格:化:因子 ί ,、 全クラスタ内の技術文献数の平均.値でお-る.こと _を特徴とする類似率算_. 出装置。 .
6 . 特許文献又は技報等の技術文献 ら構成さ 第 1:の技術文献群.と 第 2の技術文献群との、 技術的な類似性を判断するための指標を算出す る類似率算出装置であって、
比較対象となる第 1の技術文献群及.^第. 2の技術文献群を 力す ¾ - 技術文献群入力手段と、
キーワードや I P Cなど -技術情 を 力する. 術精報入力手段と、, 第 1の技術文献群及び第 2の技」術:^献群に含まれる技術文献につい て、 前記入力した技術情報を含む技術 ί文献を検索;.して.、.該検索レた技術 文献をそれぞれの技術情報毎にクラスタ分.解す スタ分解:手翁と、 前記クラスタ分解した結果得られ:た全 ラス::タ数と、 条 1.の技術^:献 群及び第 2の技術文献群の双方の技術文献:を含む混在クラスタ数を算 出するとともに、
前記クラスタ分解した結果得られた.混在クテスタに含まれる第 1の 技術爻献群及び第 2の技術文献群の技術文献 の.確率に応じて捕:正す. るために、 第 1の技術文献群の中から m個 第 2.の技術文献群の.中から n個の技術文献を取り出す確率の Ί乗'(但し、— 0 <· γ ) に 例した 正: 値を各混在クラスタについて総和を算出し、:前記算出した全クラスダ数 で除算して類似率を算出する類似率算 _出手段と、—
前記算出した類似率を記録手段、—表示手段、 又は通信 段.に出力す.る 出力手段と、
を備えたことを特徴とする類似率算出装置。
7 . 特許文献又は技報等の技術文献から構成される第 1の:技術文 群と- 第 2の技術文献群との、技術的な類似性-を判断.するための指標を.算 す る類似率算出装置であって、
比較対象となる第 1 の技術文献群及び第 2の技術文献群を入力する. 技術文献群入力手段と、
キーヮードゃ I P Cなどの技術情報を入力する.技術情報入力手段:と-.、, 第 1の技術文献群及び第 2の技術文献群 含まれる技術文献に^い て、 前記入力した技術情報を含む技術文献を検索して、 該検索した技術 文献をそれぞれの技術情報毎にクラスタ分解するク-ラスタ.分解手段と、:. 前記クラスタ分解した結果得られた全タラ- タ'数と、第: 1·の.技術实献 群及び第 2の技術文献群の双方の技術文献.を含む混在グラスタ数を算 出するとともに、
前記クラスタ分解した結果得られた混在.クラスタに含まれる第 1の 技術文献群及び第 2の技術文献群の技術文献数の確.率:に応じて補. r ;す. るために、 第 1の技術文献群の中から m個、 第: 2 :の技術文献群の中-から- n個の技術文献を取り出す確率の γ乗:(但し、 0 < γ ) を.規格化因子で 除算した補正値を各混在クラスタに い.て辑和を算出し、前記算出した 全クラスタ数で除算して類似率を算出する類似率算出手段と、 ノ ' 前記算出した類似率を記録手段、表示 段.、:又は通信:手段に出力する 出力手段と、
を備えたことを特徴とする類似率算出装置。 ,
8 . 請求の範囲 7に記載の類似率算_出装置 おける.前記規格化因: 7^ま、. 第 1の技術文献群の中から m個、:第 2の技術^:献群^中から.: n個の技術. 文献を取り出す確率の最大値の γ乗 (feし、 0 < )-..であ.る どを特徴 とする類似率算出装置。
9 . 特許文献又は技報等の技術文献か:.ら構成され:る:第.: 1:め.技術文献.群: 第 2の技術文献群との、技術的な類似性を判断す..るための指標を算 す- る類似率算出装置であって
比較対象となる第 1の技術文献群及び第 2 技術:文献群を入力 る: 技術文献群入力丰段と、
キーヮードゃ I p Cなどの技術情報を入力する技術情報入力手 .、 第 1の技術文献群及び第 2の技術文献群に.貪:まれる技術文献につい て、—前記入力した技術情報を含む技術文献を検索して、 該.檢寒した技術' 文献をそれぞれの技術情報毎にグラスタ分解するグラスタ分解手段と、 前記クラスタ分解した結果得られた全クラスタ数と.、 第 1の技術—文献 群及び第 2の技術文献'群の双方の技術文献を含.む混在クラ ^タ を算: 出するとともに、
·第 1の技術文献群に含まれる技休 f玄献数^と第.?の.技, 玄献群:に含 S. まれる技術文献数 Nとの構成比、 N ZM ^、- 前記.クラスタ分解した結果得られた混在クラスタに含まれる第 の 技術文献群の技術文献数 mと第, 2の技術 ^献群の技術文献数 nの混在 比、 n mとについて、 更に構成比と;.混在比との 匕を取ったもの. CO.-ζ (但し、 0く ζ ) に比例した補;¾値を各混在.クヲ.スタについて総和.を算 出し、前記算出した全クラスタ数で除算-して類似率を算出す.る類似率算 出手段と、
前記算出した類似率を記録手段、::表示:手段 スは通信手段に出力.する 出力手段と、 を備えたことを特徴とする類似率算出-.装-置.。;
1 0 . 特許文献又は技報等の技術文献 ち構成される第 1の技術文献群 と第 2 (^技術文献群との、技術的な類似性を.判断—するための指標を算出' する類似率算出装置であって、
比較対象となる第 1の技術文献群及 ^第 2の技術文献群.を入.力する 一 技術文献群入力手段と、
キーヮードゃ I p Cなどの技術情報を入力する技術情報入力手段と、 一 第 1の技術文献群及び第 2の技術 献群に含ま.れる技術文献 つ.レ、 て、 前記入力した技術情報を含 技術:^献を換索し—て、 該検索した.技術 文献をそれぞれの技術情報毎にク:ラ タ:分解す: クラスタ分解手段と、 - 前記クラスタ分解した結果得られ ク ..スタ mと、 第 1の s術 ¾献:
- 群及び第 2の技術文献群の双方^)、技術文献を含む混在クラスタ数-を算- 出するとともに、
第 1の技術文献群と第 2の技術文献群とを混合した技術文献释 Φ から、 第 1の技術文献群の技術文献を取:り出す.確率に、—前記.クラス.タ分: 解した混在クラスタに含まれる ¾術¾献数を-乗算し τ第 1 技術^:献 群の技術文献を取り出す期待値を算 tfc}_レ、
前記期待値と浪合クラスタに含ま.れる第 1 の: S術文:献:群の技術 尊 数との差を期待値差として算出し.、- その期待値差を任意定数 . . (但し:; 1.ぐ ) の負の指数 、レ^裤 gE値: を各混在クラスタについて総和 募出.し .前 |E算:出した全クラ タ数で: 除算して類似率を算出する類似率算出.手段-と ·、 . .■ ,
前記算出した類似率を記録手段、 表 手段、 又は通信手.段^出力す I» .
■ 出力手段と、
を備えたことを特徴とする-類似率.算出装置。
1 1 . 特許文献文は技報等の技術文歒から擠成される第 1の技術^献群. と第 2の技—術文献群との、技術的な.類 #性を判断するための指標を算出 . する類似率算出装置であって、
比較対象となる第 1の技術文献群及び第 2の技術文献群を入力する 技術文献群入力手段と、
キーワードや I P cなどの技術情報 力.する.技術情報入力手段 , 第 1の技術文献群及び第 2の扶術文献 含まれ.る技術文献につ . ' ズ、 前記入力した技術情報を含む技術文翁 検索:じて ^ 該検索した技術 - 文献をそれぞれの技術情報毎にクラ—スタ 解する.クラ-.スタ分解手段と、 前記クラスタ分解した結果得られた'全ク:ラス-タ数と、第 1の技術文献一 群及び第 2の技術文献群の双方の技術文献を含む混在クラスタ数 ¾算.. 出するとともに、 .
第 -1の技術文献群と第 2の技術文献群.とを混-合 た技術文数群の中-. . から、 第 1の技術文献群の技術文献を取:り出す確率に、 前 _記-クラス:タ分. 解した混在クラスタに含まれる技術 ¾献数を乗算して第 τの-技術文献.: 群の技術文献を.取り出す期待値を算出じ、:
前記期待値と混合クラスタに食まれ!)第;! 技術文献群の技術文献 _ 数との差を期待値差として算出し、: --.
その期待値差を混在クラスタに含まれる技術文献:数で'餘算し も-の:- を、 任意定数 (但し、 1く ) .の _負の浪数-と た補正値とし れ 各混在クラスタについて総和を算出し、 更に前記算出-し-た全クラスタ:数. で除算して類似率を算出する類似考篱 m手: ¾と s ;
-前記算出した類似率.を記録手段、」表 手—段:、 Hま:通 ji言手 に出力する 出力手段と、 · .
を備えたことを特徴とする類似率集出装置。
1 2 . 技術文献群を入力する技術 :軟群 力手段 、 キー^ー K:など , 技術情報を入力する技術情報入力手^と、.技術情報群を一技術情.報毎 ラスタ分解するクラスタ分解手-段と ;^:ラスタ数と混在クラスタ数と を算出して類似率を算出する類似 ¾ 出;手段と、算.出した類根率.あ働力:. する出力手段と、 -前記技術文献群入力手 と技術:情報 Λ力手段^:.ダラス タ分解手段と類似率算出手段と出力手段:とを制,御をすることが可能 ¾ 情報処理手段とを備えた類似率算.出—装置の讀報処理手段にて.動作し、技 術文献群同士の技術的な類似性を判断する め 指標を算出する頻似, 率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、 -比較対象となる第 1.の技術文献群 ぴ第.. 2の技術文献群を入力する機能と、
前記技術情報入力手段が、 キーワードや I P C.などの技術情報を 力- する機能と、
前記クラスタ分解手段が、 第 1 ·の技術文献群及び第 2の-技術文献群-に:' 含まれる技術文献について、 前記 :入力-した技術情報を含む技術文献を検 索して.、該検索した技術文献をそれぞれ—の技術情報毎にクラスタ:分解す る機能と、
前記類似率算出手段が、前記ダラスタ分解した結果得られた全クラ.ス. タ数と第 1の技術文献群及び第 2の技術文献群の双方の技術文献 含. む混在クラスタ数を算出するとともに: _、前記クラスタ分解した結果得ら― れた全クラスタ数と第 1の技術文献群及び第 2 技術文献群の双方の 技術文献を含む混在クラスタ数との比を類似率と:レて算出する機能と、: - 前記出力手段が、 前記算出した類似率 記録手段; 表示手段、 又-は通 信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログ:ラム。
1 3 . 技術文献群を入力する技術文献群入力手段 :、.:キ^ワ一 な^ : 技術情報を入力する技術情報.入力手段ど、技術情報群を技術情報毎にク ラスタ分解するクラスタ分解手段 、全クラスタ数と.混在クラスタ数お: を算出して類似率を算出する類似率算出手段と- :算出し:た類似率を出力' する出力手段と、前記技術文献群入力手段と技術情報入力手段とク - _ タ分解手段と類似率算出手段と出力手段おを制御をすること-が可能な:: 情報処理手段とを備えた類似率算出装置の情報処理手段にで動作し:、 .抜 術文献群同士の技術的な類似性を判断するための指標;を算出する類似 率算出プログラムであって、
前記情報処理手段に、
• 前記技術文献群入力手段が、比較対象:となる第.1.の技術文献群及 ¾第 2の技術文献群を入力する機能.と-、
前記技術情報入力手段が、キーワードや. I P Cなどの技術情報を入力 する機能と、
前記クラスタ分解手段が、第 1 技術文献群及 第 2の技術文献群に 含まれる技術文献について、前記入力:した技術情報を含む技術文献:を検 索して、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解す る機能と、
- 前記類似率算出'手段が、前記クラスタ.分解した結果得られた全ダラ:ス タ数と、第 1の技術文献群及び第- 2の技術文献群の双方の.技術文献 含' む混在クラスタ数を算出するとともに:、.各.混在クラスタに含まれる技術 文献の量に応じた値を取る第 1の補正値と:、各.混在タラスタに含まれる 第 1の技術文献群の技術文献ど第 2 技術文献群の:技術文献と; Q混ざ., り具合に応じた値を取る第 2の補 値とを乗算;し -も を各混在ク.ラ スタについて総和を算出し、 前記算-出—レた全クラスタ数で除算して類似 率を算出する機能と、
― 前記出力手段が、 前記算出した類似:率-を記:録手段、 表示手段、 は通: 信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログ.ラ」ム。
1 4 . 技術文献群を入力する技術文献群入力手-段:と—、 キーワードな'ど 技術情報を入力する技術情報入力手段と.、技術情報群を技術情報毎:にク -」 ラスタ分解するクラスタ分解手段と、全クラス:タ数と混在 -ダラスタ と— を算出して類似率を算出する類似率算出.手段:と.、算 ffi.した類似率を出力 する出力手段と、前記技術文献群入力手段:と技術情報入力手段とグラス:- タ分解手段と類似率算出手段と出力手段とを制御をすること.力可能な: 情報処理手段とを備えた類似率算出装置め情報処理芽段にて動作-レ、. -.技 i 術文献群同士の K術的な類似性を判断するための指標を算出する類:似 率算出プログラムであって、
" 前記情-報処理丰段に、
前記技術文献群入力手段が、 比較対象となる第 1の技術文献群及び第 2の技術文献群を入力する機能と、
前記技術情報入力手段が、 -キーヮ一ドゃ Ί P— Cな :—め技術情報を入力 する機能と、
前記クラスタ分解手段が、 第 1の技術文献群及び第.2の技術文献群に 含まれる技術文献について、 前記入力し 技術情報を含む 術文献 検 . 索して、該検索した技術文献をそれぞれの技術情報毎にク ダ分解す: ': る機能と、 : :
前記類似率算出手段が、前記クラス.ダ分解し::^結果得ちれた全クヲス'; タ数と第 1の技術文献群及び第 2の技術文献群の双方の技術文献を含 む混在クラスタ数を算出すると iもに、:,個々のクラ.スタ内の S術文献数 の α乗 (但し、 0く α ) に比例した補] gjt 各混在:ク.ラスタに.ついて'総: 和を算出し、 前記算出 た全グラ.スタ.数 除算--して類似率を算出す:る機 能と、
前記出力手段が、 前記算出した類似率を記録手 、.表示手段、 又は通 信手段に出力する機能と、
を実現させることを特徴とする類似率算 -mプログラ^。 -;:
1 5 . 技術文献群を入力する技術文献群入力手段と キ一ワードなどの 技術情報を入力する技術情報入力手段と、.抉術情報-群を-技術情報毎に..クニ ラスタ分解するクラスタ分解手段と、全ク: .スタ-幾と混在- .スタ.黎— . を算出して類似率を算出する類似率算出手段と、算 レた類似率を出力. する出力手段と、前記技術文献群入力手段と g術情報入力手段と.クラス タ分解手段と類似率算出手段と出力-手段-とを-制御.をする-こと力 可能な : 情報処理手段とを備えた類似率算出装置の情報処 a手段にて動作レ、 技 : 術文献群同士の技術的な類似性を判断す こめ 指標を算出丈る類似 率算出プログラムであって、、—
前記情報処理手段に、
前記技術文献群入力手段が、 比較対象と-なる第 1の技術文献群及び第 2の技術文献群を入力する機能—と、 ——
前記技術情報入力手段が、 キーワードや I P Cなどの技術情報を入力 する機能と、 , .
前記クラスタ分解手段が、 第 1の技術文献群及び第 2の技術文献群に 含まれる技術文献について、 前記入力しこ 術情報を含む技術文献を検 索して、 該検索した技術文献をそれぞれの技術情報:毎にクラ :タ分解す る機能と、
前記類似率算出手段が、前記クラスタ、分解-し.た結果得られた全:タラ :ス タ数と、 第 1の技術文献群及び第 2の技術文献群の双方の技術文献を含 む混在クラスタ数を算出するとともに—個々のクラスタ内の技術文献数- の c乗 (但し、 0 < α ) を規格化因子 除算した補正値を.各混在 ラス タについて総和を算出し、 類似率一を算出する機能-と
前記出力手段が、 前記算出した類似率を Β舞手 _段、 .表示手段、. 又は通,: 信手段に出力する機能と、 ―
を実現させるこどを特徴とする-類.俾率算出プログラム。
1 6 . 請求の範囲 1 5に記載の類似率算出プ;.口,グラムにおいて、 ' .
前記情報処理手段に、
前記類似率算出手段が、 前記規格 ^ [·チ: :として 全ク スダ-内の.技術- 文献数の平均値を用いる機能を寒現させるこ.と.を 徴とする.類似率算' 出プログラム。
1 7 . 技術文献群.を入力する技術文献群 力手: と、 キーヮーザな の -技術情報を入力する技術情報 力 と 技術情報群を S術情報每にタ. - ラスタ分解するクラスタ分解手段^ ·、全クラスタ数と混在クラ タ数と-— を算出して類似率を算出する類似率算出手 と、 算出した類似率を ω力. する出力手段と、前記技術文献群入力手段-と 術情報入力手段と ラ : タ分解手段と類似率算出手段ど出力手段と. 制御をするこ.とが可能な 情報処理手段とを備えた類 ί 率算 -出装置の情報処理手段にて動作し、 技 術文献群同士の技術的な類似性を判断—するた ^ の..指標-を算出する類似 率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、比較対象となる.第 1の技術.文献群及び第 2の技術文献群を入力する機能と、
前記技術情報入力手段が、 キーワードや I P Cなどの技術情報を入力 する機能と、
前記クラスタ分解手段が、第 1の技術文献群及び第 2の技術文献群に 5 含まれる技術文献について、前記入 レた技術情報を含む技術文献を検 索して、該検索した技術文献をそれぞれの技術情報毎にクヲ,スタ分解す る機能と、
前記類似率算出手段が、前記 ¾ タ.分解レた結果得られた全クラ:ス タ数と、 第 1の技術文献群及び第 2の:技術文献群の双方の技術文:献を含' 10 む混在クラスタ数を算出するととも:に、前記クラ _スタ分解じた結果得ら 一 れた混在クラスタに含まれる第 1の g術 献群及び第—.2の技—術:文锨群 の技術文献数の確率に じて補正す:るため . (こ第— 1-Φ-& .文献群の中か ら m個、 第 2の技術文献群の中から _ n -個の技術文献 取り出す確率:. φ. γ. 乗 (但し、 0く γ ) に比例した補正値を-各混在-クラスタ rについて:総和を一 .15 算出し、 前記算出した全クラスタ数で除算,し: Τ頻似率'を算出する機能
― 前記出力手段が、 前記算出した類似率を:記録手段—、 表示-手段.、 又:は通 信手段に出力する機能と、
- を実現させることを特徴とする類似率算出プ ラ. Αο ·-
20 1 8 . 技術文献群を入力す:る技術 献群 Λ.力手段と:、:キー.ヮ Π.ドな :·どの— 技術情報を入力する技術情報入ガ手段と、:技術精報群を-技術精報毎にク ラスタ分解するクラスタ分解手段と、· .全クラスタ数—^混在クラスタ数 :: を算出して類似率を算出する類似率算出手段 、算出した類似率を.出力- する出力手段と、 前記技術文献群入力手段と—技術情:報入力-手段と ラ
25 タ分解手段と類似率算出手段と出力手 とを制御をするこ,:とが 能よ 情報処理手段とを備えた類似率算出装置:の情報処理手段に-て動作し、.技 術文献群同士の技術的な類似性を判.断するため..の指標を算出する類似 率算出プログラムであって、
前記情報処理手段に、 - 前記技術文献群入力手段が、比較対象となる第 1の技術文献群及び第. 2の技術文献群を入力する機能と、 .
前記技術情報入力手段が、 キーワード J P Cなどの技術情報を入力 する機能と、
前記クラスタ分解手段が、第: の技術文献群及び第 2の技術文献群に... 含まれる技術文献について、前記 ^力した技術情報を含む技術文献を検 索して、該検索した技術文献をそれぞれ 技術情報毎にクラスタ分解す る機能と、
前記類似率算出手段が、前記クラスタ分解 Lた結果得もれ tこ全ク.ラ. タ数と、第 1の技術文献群及び第 .2 .の技術文献群の 方の技術文献 I:含 む混在クラスタ数を算出す とと,もに、 前記クラスタ分解レ 結果得 - れた混在クラスタに含まれる第 1 ..技術文献.群及-び第 2の技術文献群 - の技術文献数の確率に応じて補正する.ために、第.1の技術;文献群の一中-か ら m個、第 2の技術文献 の中から n個の技術文-献を:取り出す確率:の: γ-ノ 乗 (但し、 0く γ ) を規格化因子で除算レた補正値を各混在クラス .に.: ついて総和を算出し、前記算出レた全クラスタ数で除算して類似率を算 出する機能と、 - 前記出力手段が、 前記算出した類似率.を |5録手:段、:.表示手段、 又は通 信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラ 。 ノ -
1 9 . 請求の範囲 1 &に記載の類似率.算出プログラムにおいて、 · 前記情報処理手段に、
前記類似率算出手段が、 前記規格化因:子として、 第 1の技術文献群の— 中から m個、 第' 2の技術文献群の中から. n'個の技術文献を取り出す勝率: . の最大値の γ乗 (但し、 0ぐ. γ ) を用 Wる機能を実現させる Xと.を特徴. i とする類似率算出プログラム。 '
2 0 . 技術文献群を入力する技術文献群入力手段と、 キーヮード¾ ^の 技術情報を入力する技術情報入力手段と、技術情報群を技術情報毎にク ラスタ分解するクラスタ分解手段と、全クラスタ数と-混在クラスタ数と を算出して類似率を算出する類似率算出手段と、-算出した類似率を出力 する出力手段と、前記技術文献群入力手段と技術情報入力手段とクラス タ分解手段と類似率算出手段と出力 と:を制御.を.することが可能な 情報処理手段とを備えた類似率算出装 «の情報処理手段にて動作し、技 術文献群同士の技術的な類似性を-判.断す-るための指標を算出する類似 率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、 比較 ¾象となる第 1の技術文献群及び第 2の技術文献群を入力する機能と、
前記技術情報入力手段が.、 キーヮ.一ドゃ I P §などの技術情報を入力 する機能と、
前記クラスタ分解手段が、 第 1の楚術文献群及び:第 2:の技術文献群に- 含まれる技術文献について、前記入力-レた技術情報を含む技術文献を検 索して、該検索した技術文献をそれぞれの技術情報毎にタラスタ分解す る機能と、
前記類似率算出手段が、前記グラス:タ:分解レた結果得ら^た全クラス タ数と、 第 1の技術文献群及び第 2-の技術.文献群の双方の技術文献を含 む混在クラスタ数を算出するとともに、第 I-の技術文献群に含まれ.る技 術文献数 Mと第 2の技術文献群 含まれる技術 ^献.黎 との構成比、 N ZMと、 前記クラスタ分解 Lた結 得.られ^^在えぇス:タに含まれる.第 1の技術文献群の技術文献数 mと第^の ,術文献.群の技術文献錄 nの? - 混在比、 n Zmとについて、 更に構成 Jtと撣在 と を取ったものの ζ乗 (但し、 0く ζ ) に比例した補正 j直を各 在グラスタについて総和 を算出し、前記算出した全クラスタ数で除-算し ·,Τ類似.率を.算出す.る機能 と、
前記出力手段が、 前記算出した類似率を記録手段、 表示手段、 又は通 信手段に出力する機能と、
を実現させることを特徴とする類似率算出プログラム。 :
2 1 . 技術文献群を入力する技術文献群入力手段と、 キーワードなどの 技術情報を入力する技術情報入力ま段と、技術情報群.を技術情報.毎:にク ラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ数と を算出して類似率を算出する類似率算出手段と; ;算出 た類似率を出力 する出力羊段と、前記技術文献群入力手段と:技術情報入力手段と:ク-ラス: タ分解手段と類似率算出手段と出力手段とを制御.をする とが可能な 情報処理手段とを備えた類似率算出装置の情報処理手段にて動作し、 技 術文献群同士の技術的な類似性を判断するための指標を算出する類似 率算出プログラムであって、
前記情報処理手段に、
前記技術文献群入力手段が、 比較対:象となる第— 1の技術文献群及び第 2の技術文献群を入力する機能と、
前記技術情報入力手段が、 キーヮ一ドや I P Cな-どの:技術情:報:を入.力 する機能と、
前記クラスタ分解手段が、 第 1の技術文献-群及.び第 2·の技:術文:献群:に 含まれる技術文献について、前記; λカレ .技術情報を含む技術文献を検 索して、該検索した技術文献をそれぞれの技術:情報毎にクヲスタ分解す る機能と、
前記類似率算出手段が、前記ク:ラスタ分解した結果得られた全グラス タ数と、第 1の技術文献群及び第 2.の S術文献群 __の ^方の技術文^衾 む混在クラスタ数を算出するととも.に、 :
第 1の技術文献群と第 2の技術文献群とを混合.した技術文献群の中 から、 第 1の技術文献群の技術文献を取り出す確率:に、 前記ク.ラスタ 解した混在クラスタに含まれる技術文献数を乗算して第 1の技術 献 群の技術文献を取り出す期待値を箕出レ、.
前記期待値と混合クラスタに含まれる第 1の技術文献群の技術文献 数との差を期待値差として算出し、 - .
その期待値差を任意定数 (但し、 - 1ぐ の:負の—指数と-した補正値 を各混在クラスタについて総和を算出し、前記算:出.し: fこ全クラスタ数で 除算して類似率を算出する機能と、 前記出力手段が、 前記算出した類似率を記録手段、 表示 段'、 又は:通 信手段に出力する機能と、
を実現させることを特徴とす 類似率算出プログ:ラム'。
2 2 . 技術文献群を入力する技術文.献群入 手段と、 .キー 17 ドなどの. - 技術情報を入力する技術情報入力手段と 技術情報群を技術情報毎にク ラスタ分解するクラスタ分解手段-ど、金グラスタ:数と混在グラス:タ数. を算出して類似率を算出する類似率算出 段と、 算出した類似率を出力 する出力手段と、前記技術文献群「入力.手段-と技術情報-入力手段とクラス タ分解手段と類似率算出手段と出力手段とを制御:をすることが可能な 情報処理手段とを備えた類似率算出装谭 情報処理手段にて動作 、..技 術文献群同士の技術的な類似性を判断す.るた.め c 指標を算出す A類似 率算出プログラムであって、
前記情報処理手段に、
• 前記技術文献群入力手段が—、比較対象と:なる第 1の技術文献群及び第 2の技術文献群を入力する機能とく- 前記技術情報入力手段が、 キ .ワード:や I P:Cなどの技術情報:を入力 - する機能と、 - - ― 前記クラスタ.分解手段が、第 1の 術^:献群及び第 2の技術文尊群に. 含まれる技術文献について、前記入力.„し 技術情報を含む-抉術文献を検 索して、該検索した技術文献 やれぞれの技術情報毎 1こグラ^タ分解す る機能と、
前記類似率算出手段が、前記クラス.ダ分解した結果得られた全 ラス タ数と、 第 1の技術文献群及び第 2の 術^献群の双方の技術^献を含 む混在クラスタ数を算出すると &もに、
第 1の技術文献群と第 2の技術文献群と-を混合した技術文献群の中 から、 第 1の技術文献群の技術文献を取:り出す確率に、 前記 .ラスタ分 解した混在クラスタに含まれる技術文献数を乗算して第 1の技術文献 群の技術文献を取り出す期待値を算出し、 - 前記期待値と混合クラスタに含まれる第- 1の技術文献群の技術文献 数との差を期待値差として算出し、 · . ·
その期待値差を混在クラスタに含まれる技術文献:数で除算したもの を、 任意定数 (但し、 1く の—食の指教と;:しニた補正値と.し、-—これ.を— 各混在クラスタについて総和を算出し、 更に前記算出.した全クラスタ-数 で除算して類似率を算出する機能と.、 :
前記出力手段が、 前記算出した類似率を記録手段 -表示手段 は通. 信手段に出力する機能と、
を実現させることを.特徴とする類似-率算 -出プログラム。
2 3 . 技術文献群を入力する技術文献群—入力手:段..と—'、….キーヮ : Κなどの: 技術情報を入力する技術情報入力芋段と、技.術情報群.を技術情報きに ラスタ分解するクラスタ分解手段と、全ク:ラスタ:数と混在クラスタ-数と を算出して類似率を算出する類似率算出手段と 算出した類似率を出力 する出力手段とを備えた類似率算出装置.を用½:て 技 ^文献群同士の技 術的な類似性を判断するための指標'を算出す 類似率算出:方法—であ: '. て、
技術文献群入力手段が、 比較対象と:なる第 1の皮術文献群及ぴ第 2-の 技術文献群を入力する工程と、
技術情報入力手段が、 キーワードや I P-Cな.どの技術情報を入力す. : 工程と、
クラスタ分解手段が、 第.1の技術文献群及び第 2の技術文献群 含ま れる技術文献について、前記入力:した技術情報を含む技術文献を検索し て、該検索した技術文献をそれぞれの技術情報毎-に: ラ. タ分解するェ: 程と、
類似率算出手段が、 前記グラスタ分 J?した結果得一ら,.れた全ク.ラ.:スタ数 と第 1の技術文献群及び第 2.の技術文献群の双方の技術文献を含む混 在クラスタ数を算出するとともに、 前記クラス」 分解—.した結果得も.れた 全クラスタ数と第 1の技術文献群及び第 2の技術文献群の双方.の技術 文献を含む混在クラスタ数との比.を類似率として算出する.工程-と、: 出力手段が、 前記算出した類似率-を記録手段.:、 表示手段、 又は通信手 段に出力する工程と、
を含むことを特徴とする類似率算出方法
2 4 . 技術文献群を入力する技術文献群^力手段と、 'キーワードなどの.: 技術情報を入力する技術情報入力手段と-、 '技術情報群 _を技術情報每にク ラスタ分解するクラスタ分解手段と V全.クラスタ数:と,混在クラスタ数と- を算出して類似率を算出する類似率算出手段:ど.、算出じた類似率を-出力 する出力手段とを備えた類似率算出:装置を用いて、技:術文献群同士の技 術的な類似性を判断するための指標を算出する類似率:算出方法でおつ て、
技術文献群入力手段が、比較対象'ど-な:る第 1の技術文献群,及び第 2の 技術文献群を入力する工程と、
技術情報入力手段が、 キーワ^: や I P C:な の:技術情報を^カオる 工程と、
クラスタ分解手段が、第 Ϊの技術文献'群及び第2.の技術文献群 含ま. れる技術文献について、前記—入力した技術情報を含む技術文献を検索し て、該検索した技術文献をそれぞれの技術情報毎に -ラスタ分解 るェ. 程と、
類似率算出手段が、前記クラスタ:分解した結果得ちれた.全クラスタ数 ど、 第 1の技術文献群及び第 2の.技術-文献群の双方の技術文献を贪む混 在クラスタ数を算出するとともに、各 1在グラスタに含まれる技:術文献- の量に応じた値を取る第 1の補正値と';:各混在クラスタに含まれる第: 1 の技術文献群の技術文献と第 2の技術文.献群の技術文献との混:ざり具 合に応じた値を取る第 2の補正修とを乗算したものを各混在クラスタ について総和を算出し、前記算出し-た全クラスタ数で除算して類似率:を: 算出する工程と、
出力手段が、 前記算出した類似率を記録手段、 表示手段、 又は通信手.: 段に出力する工程と、
を含むことを特徴とする類似率算出方法。
2 5 . 技術文献群を入力する技術文献群入力手段と、 キーワードなどの 技術情報を入力する技術情報入力.手段と'、- :技術情報群を技術情報毎にク ラスタ分解するクラスタ分解手段と、全クラスタ数と混在クラスタ '数と を算出して類似率を算出する類似率算¾手段と、算出した類^率を.出 Λ する出力手段とを備えた類似率算出装置を用いで、 技術文献群同,士の技 術的な類似性を判断するための指標を算.出す:る類似率算出方法であつ て、 - 技術文献群入力手段が、比較対象.となる第 1の技術文献群及び第 .の: 技術文献群を入力する工程と、
技術情報入力手段が、 キーワードや I P Cなどの技術情報を入力する 工程と、
クラスタ分解手段が、第 1の技術 ¾献:群及::び第 2 技術.文献群に含ま れる技術文献について、.前記入力し 技術情報を含む技術文献を検索し て、該検索した技術文献をそれぞれの.技術情報毎にクラスタ分解するェ 程と、
類似率算出手段が、前記ク..ラスタ分解し:た結果得られた全グラスタ数 と第 1の技術文献群及び第 2の技術文献群 方の技術文献を含む混 在クラスタ数を算出するとともに.、..個々のクラスタ内の技術文献数の a 乗 (但し、 0く c ) に比例した補正値を各混在クラスタ-に:.ついて総和お 算出し、 前記算出した全クラスタ—数で筒算レて類條率:を算出す—る工程.と 出力手段が、 前記算出した類似率を _記録手段、.表示手段、 又は通信ま 段に出力する工程と、
を含むことを特徴とする類似率算:出方法。'
2 6 . 技術.文献群を入力する技術文献群-入力手段..と、 キー 一ドなどの 技術情報を入力する技術情報入力:手段 :、技術情報群を技術情報毎にク ラスタ分解するクラスタ分解手段と、全グラスタ数と混在クラスタ欽と を算出して類似率を算出する類似率-算出手段と、算出,した類似率を出力 する出力手段とを備えた類似率算出装置を用いて、技術文献群同士:の技 術的な類似性を判断するための指標を算出する類似率算出方法であつ て、
技術文献群入力手段が、比較対象となる:第 1の技術文献群及び第: 2 技術文献群を入力する工程と、 — - 技術情報入力手段が、 キーヮードゃ: I P Cなど—の技術情報を入力.す;る-: 工程と、
クラスタ分解手段が、 第 1の技術文献群及び第 2の技術文献群に含ま れる技術文献について、 前記入力しだ技術情報を含む技術文献を検索し て、該検索した技術文献をそれぞれの技術-情報毎にクラスタ分解するェ 程と、
類似率算出手段が、前記クラスダ分解した結果得られた全クラスタ数 と、 第 1の技術文献群及び第 2の技術文献群 双方の技術.文献を含む混' 在クラスタ数を算出するとともに、個々の:ク::ラスタ内の技術文献-数.の: α 乗 (但し、 0 < α ) を規格化因子で除算した捕 Ε値を各混在クラ:スタに ついて総和を算出し、 類似率を算- ¾iする工程と、
出力手段が、 前記算出した類似率を記録手段、 表示手段、 又は通信手 -段 出力する工程と、
を含むことを特徴とする類似率算出方法。
2 7 . 請求の範囲 2 6に記載の類似率算出方法において、':
前記類似率算出手段が、 規格化因子 じて、 全ク.テスタ内の ¾ i文献 数の平均値を用いる工程を含むことを特徴とする類似率算 ttj方法。
2 ,8 . 技術文献群を入力する技術文献群入力手段と、 キーワードなど:の 技術情報を入力する技術情報入力手段:と、技術情報群を技術情報毎にク ラスダ分解するクラスタ分解手段と、 -クラ タ数と混在クラスタ.数と を算出して類似率を算出する類似率算出手段.ど、算出.した類似率を出力 する出力手段とを備えた類似率算出装置を用いて、技術文献群同士 技 術的な類似性を判断するための指標を算出する類似率算出方法であつ て、 ——
技術文献群入力手段が、 比較対象となる第 1 技術文献群及び第.2の 技術文献群を入力する工程と、 技術情報入力手段が、 キーヮ一卞や I P Cなど-の技術情報を入力する 工程と、 ―
クラスタ分解手段が、第 1の技術文献群及び第 2の技術文献群に含ま れる技術文献について、前記入力し-た技術;情報を含む技術文献を検索:レ て、該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するェ 程と、 · 類似率算出手段が、、前記クラスタ分解した結果得られた全クラスタ数 と、 第 1の技術文献群及び第 2の技術文献群の双方の技術文.献を,含む混 在クラスタ数を算出するとともに、前記クラスタ分解した結果得られた 混在クラスタに含まれる第 1 の技術文献群及び-第. 2の技術文献群 技 術文献数の確率に応じて補正するた に第 技.術文献群 中か'ら m: 個、 第 2の技術文献群の中から ή個の _技術文献.を-取 出す Jt率の. γ.乗 (- 伹し、 0く γ ) に比例した補正値を各混在クラスタについて.総和を算出 し、 前記算出した全クラスタ数で除算して類倏率を算 ttfするェ -程と:、' : 出力手段が、 前記算出した類似率を記録手段: 表示手段、 又:は通信手 段に出力する工程と、
を含むことを特徴とする類似率算出-方法。
2 9 . 技術文献群を入力する技術文献群入力手段と、 キ ワードな.ど 技術情報を入力する技術情報入力手段と.、:技術-情報群を技術情報毎にク ラスタ分解するクラスタ分解手段と、—全クラスタ数と混在タ :ス::タ数.と を算出して類似率を算出する類似率算出手段.お、 -算出した類似率を:出^/ する出力手段とを備えた類似率算出装置を.用いて、技術文献群同由の技 術的な類似性を判断す-るため .指標を算出する類似率算出方法であつ て、
技術文献群入力手段が、 比較対象となる-第- 1の技術文献群及び第.— 2 技術文献群を入力する工程と、
技術情報入力手段が、-キーワ^卞ゃ I P Cなどの技術情報を入力する 工程と、
クラスタ分解手段が、.第 1の技術文献群及び第 2 -の技術文献群に含ま れる技術文献について、前記入力し:.た技術情報を含む技術文献を検索し ■ て、 該検索した技術文献をそれぞれの技術情報毎にクラスタ分解するェ 程と、
類似率算出手段が、前記クラスタ分解:した結果得られた全ダラスタ裁 と、 第 1の技術文献群及び第 ·2の技術文献群-の双方の技術文献を含む提 . 在クラスタ数を算出するとともに .前記クラスタ分解した結果得られた 混在クラスタに含まれる第 1の技術文献群及ぴ第 2の技術文献群の技 術文献数の確率.に応じて補正するために、 第-.: Lの技術文献群の:中 ら L 個、 第 2の技術文献群の中から η.個の技術文献.を:取り出す確率の」 乗- 但し、 0く γ ) を規格化因子で除算した補正値を各混在クラ タについ. . て総和を算出し、前記算出した全クラ:ス;タ数:で除算じて類似率を算出す る工程と、
出力手段が、 前記算出した類似率を記録手段、表.示手段、 又は通信手., 段に出力する工程 、
を含むことを特徴とする類似率算出方法。 - 3 0 . 請求の範囲 2 9に記載の類似率算出;:方法において、 ― 前記類似率算出手段が、 規格化因子: して、 第 1.の技術文献群の:中力、. ら m個、 第 2の技術文献群の中かち h個 技術文献を取り出す確率の最 大値の γ乗 (但し、 0く γ ) を用いる: [: -程を含: こ—と :を特微とする:類似 -—' 率算出方法。
3 1 . 技術文献群を入力する技術: ¾献群入力手段と.、.キー -ワードな の- 技術情報を入力する技術情報入力手:段と、—技術情報群を技術情報毎.にタ r ラスタ分解するクラスタ分解手段と、全クラ タ数と混在クラスタ数と を算出して類似率を算出する類似率算出手段と、 算出した類似率を出力 する出力手段とを備えた類似率算出装置を用いて、 -技術文献群周.士の技. 術的な類似性を判断するための指標を算出する類似率算出方法であっ- て、
技術文献群入力手段が、比較対象となる第 1の技術文献群及び第 2の 技術文献群を入力する工程と、 技術情報入力手段が、 キーヮード:や.1' :な:ど-の技術情報.を入力す-る 工程と、
クラスタ分解手段が、 第 1の技術文献群及び第 2の技術文献群に含ま れる技術文献について、前記入力し;た.技術情報を含む技術文献を検索 て、該検索した技術文献をそれぞれの技術情報毎にク ϊラスタ分解 :るェ 程と、 ·
類似率算出手段が、前記クラスタ:分解 :した結果得られた全クラ タ数 と、 第 1の技術文献群及び第 2の技術文献群:め双方の技術文献 含.む混 在クラスタ数を算出するどともに、,第, 1:'の技:術-文献群に含 れる.技術文 献数 Μと第 2の技術文献群に含まれる技術文献数 Νとの:構成比、- ΙΤ Μ と、 前記クラスタ分解した結果得ちれた ϋ在ク スタ:に含まれ-る第 1:の 技術文献群の技術文献数 mと第— 2の.技術文献群の技術文献数 nの混在 比、 n Zmとについて、 更に構成比 混在扰と ^比を取った- のの: ζ乗 (但し、 0 < ζ ) に比例した補正値-を各混在クラスタについて総和を算 出し、 前記算出した全グラスタ数で除算して類似率-を:算出す:る工程と.、 出力手段が、 前記算出した類似率を記録手段 表示手段、:又は通信手 段に出力する工程と、
を含むことを特徴とする類似率算:出方法。.
3 2 . 技術文献群を入力する技術: ¾献群 ^力 殺と、:キーヮ ド: ¾ の 技術情報を入力する技術情報入力手:段と:、.技術情報群を技術情報毎にク ラスタ分解するクラスタ分解手段と、.全クラスタ数と混在クラスタ数と を算出して類似率を算出する類似率算出手段と、算出した類似率を出力 する出力手段とを備えた類似率算出装置を.用いて、技術文献群同由.の技 術的な類似性を判断するための指標を算出する:類:似—率算出方法で-あ て、
技術文献群入力手段が、比較対象となる第 Γ 技術文献群及び第 2 < 技術文献群を入力する工程と、
技術情報入力手段が、 キーワードや I Cな'どの.技術情報を入力する 工程と、 クラスタ分解手段が、'第 1の技術文献群及び第 2の技術文献群に含ま れる技術文献について、 前記入力した技術情報を含む技術文献を検索じ て、 該検索した技術文献をそれぞれの技術情報'毎に'クラスタ分解するェ 程と、
類似率算出手段が、 前記クラスタ分解した結果得ちれた全グラスタ数 と、 第 1の技術文献群及び第 2の技術文献群の双方の技術文献を含む混 在クラスタ数を算出するとともに、
第 1の技術文献群と第 2の技術文献群と.を混合した技術文献群.の.中 から、 第 1の技術文献群の技術文献を取り出す確率に、 前記クラスダ分- 解した混在クラスタに含まれる技術文献数を乗算じて第 1„の技術文献 群の技術文献を取り出す期待値を.算出し:;
期待値と混合クラスタに含まれ-る第: 1 -の技術:文:献群の技術文献数ど' の差を期待値差として算出し、
その期待値差を任意定数 ξ (但し、- 1ぐ ') の負め.指数とした補正値 を各混在クラスタについて総和を算出し、前記算出-した全 :クラスタ数で 除算して類似率を算出する工程と、
出力手段が、 前記算出した類似率を記録手段、— 表示手段、 又は通信手 段に出力する工程と、
を含むことを特徴とする類似率算-出方法 - 3 3 . 技術文献群を入力する技術文献群入'方手段と-; キー17 ドなど 技術情報を入力する技術情報入力丰段と、技術情報群を技術情報毎にク- ラスタ分解するクラスタ分解手段と、 全クラスタ数と混在クラスタ数と を算出して類似率を算出する類似率算出手段と、 算出した類似率を出力 する出力手段とを備えた類似率算出装置を用いて; 技術文献群同 Φの技 術的な類似性を判断するた-めの指標を算出する類似率算出方法であつ て、
技術文献群入力手段が、 比較対象となる第 1の技術文献群及び第 2の 技術文献群を入力する工程と、
技術情報入力手段が、 キーワードや I P Cな-どの技術情報を入力する 工程と、
クラスタ分解手段が、第 1の技術文献群及び第 2の技術文献群に含ま れる技術文献について、前記入力した技術情報—を含む技術文献を検索じ て、該検索した技術文献をそれぞれ」の技術情報毎にクラスタ分解するェ 程と、
類似率算出手段が、前記クラスタ分解した結果得られた全クラスタ数 と、 第 1の技術文献群及び第 2の技術文献群の.双方の技術文献を含む混 在クラスタ数を算出するとともに、.:
第 1の技術文献群と第 2の技術文献群-とを:混合じた技術文献群の.中 から、 第 1の技術文献群の技術文献を取-り出す確率に、 前記クラ タ分 解した混在クラスタに含まれる技術; 5:献数を乗算して第 1 の技術文献 群の技術文献を取り出す期待値を算出し、
期待値と混合クラスタに含まれる第 1の技術文献群の技術文献数と の差を期待値差として算出し、
その期待値差を混在クラスタに含まれる技術文献数で除募したもの を、 任意定数 ξ (但し、 1く の負の指数とした補正値とし.、 これを 各混在クラスタについて総和を算出し、 更に前記算出^ Lた全クラスタ数 で除算して類似率を算出する工程と:、
出力手段が、—前記算出した類似率を:記録手段—、 表示手段.、 又.は通信手 段に出力する工程と、
を含むことを特徴とする類似率-算出方法。
PCT/JP2004/004451 2003-09-30 2004-03-29 類似率算出装置並びに類似率算出プログラム WO2005033972A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
BRPI0415148-8A BRPI0415148A (pt) 2003-09-30 2004-03-29 dispositivo de cálculo de similaridade e programa de cálculo de similaridade
US10/573,778 US20060294060A1 (en) 2003-09-30 2004-03-29 Similarity calculation device and similarity calculation program
AU2004277629A AU2004277629A1 (en) 2003-09-30 2004-03-29 Similarity calculation device and similarity calculation program
JP2005514348A JPWO2005033972A1 (ja) 2003-09-30 2004-03-29 類似率算出装置並びに類似率算出プログラム
CA002540661A CA2540661A1 (en) 2003-09-30 2004-03-29 Similarity calculation device and similarity calculation program
EP04724188A EP1669889A4 (en) 2003-09-30 2004-03-29 DEVICE AND PROGRAM FOR CALCULATING SIMILARITY

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003-341904 2003-09-30
JP2003341904 2003-09-30

Publications (1)

Publication Number Publication Date
WO2005033972A1 true WO2005033972A1 (ja) 2005-04-14

Family

ID=34419250

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/004451 WO2005033972A1 (ja) 2003-09-30 2004-03-29 類似率算出装置並びに類似率算出プログラム

Country Status (10)

Country Link
US (1) US20060294060A1 (ja)
EP (1) EP1669889A4 (ja)
JP (1) JPWO2005033972A1 (ja)
KR (1) KR20060079792A (ja)
CN (1) CN1856788A (ja)
AU (1) AU2004277629A1 (ja)
BR (1) BRPI0415148A (ja)
CA (1) CA2540661A1 (ja)
RU (1) RU2344474C2 (ja)
WO (1) WO2005033972A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055580B (zh) * 2006-04-13 2011-10-05 Lg电子株式会社 用于检索文档的系统、方法及用户接口
CN111353301A (zh) * 2020-02-24 2020-06-30 成都网安科技发展有限公司 辅助定密方法及装置

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070192161A1 (en) * 2005-12-28 2007-08-16 International Business Machines Corporation On-demand customer satisfaction measurement
US8661029B1 (en) * 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
KR100834292B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 방법 및 시스템
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
US20110119250A1 (en) * 2009-11-16 2011-05-19 Cpa Global Patent Research Limited Forward Progress Search Platform
US9110971B2 (en) * 2010-02-03 2015-08-18 Thomson Reuters Global Resources Method and system for ranking intellectual property documents using claim analysis
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US9026536B2 (en) * 2010-10-17 2015-05-05 Canon Kabushiki Kaisha Systems and methods for cluster comparison
KR20120046671A (ko) * 2010-11-02 2012-05-10 (주)광개토연구소 특허 평가 모델 생성 방법, 특허 평가 방법, 특허 분쟁 예측 모델 생성 방법, 특허 분쟁 예측 정보 생성 방법, 특허 라이센싱 예측 정보 생성 방법, 특허 리스크 헤징 정보 생성 방법 및 시스템
KR101255181B1 (ko) * 2011-03-23 2013-04-16 강민수 특허 분쟁 예측 모델 생성 방법, 그 방법을 실시하는 시스템 및 그 방법이 기록된 기록 매체
JP5742506B2 (ja) * 2011-06-27 2015-07-01 日本電気株式会社 文書類似度算出装置
RU2469389C1 (ru) * 2011-11-08 2012-12-10 Учреждение Российской академии наук Институт системного программирования РАН Способ интеграции профилей пользователей онлайновых социальных сетей
US20130159346A1 (en) * 2011-12-15 2013-06-20 Kas Kasravi Combinatorial document matching
CN103514172A (zh) * 2012-06-20 2014-01-15 同程网络科技股份有限公司 设置搜索引擎关键词的下词方法
KR102017746B1 (ko) 2012-11-14 2019-09-04 한국전자통신연구원 유사도 산출 방법 및 그 장치
KR20140078969A (ko) * 2012-12-18 2014-06-26 (주)광개토연구소 특허 괴물 정보를 포함하는 특허 정보 제공 방법 및 그 특허 정보 시스템
RU2573951C2 (ru) * 2013-12-17 2016-01-27 Сергей Анатольевич Головин Устройство формирования информационно-методических ресурсов кафедры
WO2016170561A1 (en) * 2015-04-24 2016-10-27 Nec Corporation An information processing system and an information processing method for semantic enrichment of text
KR101724302B1 (ko) * 2016-10-04 2017-04-10 한국과학기술정보연구원 특허분쟁예보장치 및 그 방법
EP3333728A1 (en) * 2016-12-12 2018-06-13 Tata Consultancy Services Limited System and method for analyzing research literature for strategic decision making of an entity
RU2696295C1 (ru) * 2018-10-31 2019-08-01 Алексей Викторович Морозов Способ формирования и структурирования электронной базы данных
CN110826595A (zh) * 2019-09-29 2020-02-21 广东美的白色家电技术创新中心有限公司 菜谱比较方法、装置及计算机存储介质
KR102221355B1 (ko) * 2020-07-27 2021-03-02 한국과학기술정보연구원 유사 특허 분류방법 및 유사 특허 분류시스템
CN112632954A (zh) * 2020-12-29 2021-04-09 中译语通科技股份有限公司 获取机构技术相似性的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278982A (ja) 1995-04-05 1996-10-22 Fuji Electric Co Ltd 類似語または類似文章の検索方法
JPH08287081A (ja) 1995-04-19 1996-11-01 Fuji Xerox Co Ltd 類似度付きデータ検索装置
JPH1074205A (ja) 1996-08-30 1998-03-17 Matsushita Electric Ind Co Ltd 類似名称検索装置
US5787420A (en) 1995-12-14 1998-07-28 Xerox Corporation Method of ordering document clusters without requiring knowledge of user interests
JPH1173415A (ja) 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法
JP2001331527A (ja) 2000-05-24 2001-11-30 Hitachi Ltd 類似文書検索方法
JP2001337992A (ja) 2000-05-29 2001-12-07 Mitsubishi Electric Corp 類似検索システム及び類似検索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US6154725A (en) * 1993-12-06 2000-11-28 Donner; Irah H. Intellectual property (IP) computer-implemented audit system optionally over network architecture, and computer program product for same
KR100426382B1 (ko) * 2000-08-23 2004-04-08 학교법인 김포대학 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
US20020161626A1 (en) * 2001-04-27 2002-10-31 Pierre Plante Web-assistant based e-marketing method and system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08278982A (ja) 1995-04-05 1996-10-22 Fuji Electric Co Ltd 類似語または類似文章の検索方法
JPH08287081A (ja) 1995-04-19 1996-11-01 Fuji Xerox Co Ltd 類似度付きデータ検索装置
US5787420A (en) 1995-12-14 1998-07-28 Xerox Corporation Method of ordering document clusters without requiring knowledge of user interests
JPH1074205A (ja) 1996-08-30 1998-03-17 Matsushita Electric Ind Co Ltd 類似名称検索装置
JPH1173415A (ja) 1997-08-27 1999-03-16 Toshiba Corp 類似文書検索装置及び類似文書検索方法
JP2001331527A (ja) 2000-05-24 2001-11-30 Hitachi Ltd 類似文書検索方法
JP2001337992A (ja) 2000-05-29 2001-12-07 Mitsubishi Electric Corp 類似検索システム及び類似検索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARAI K.: "Tokkyo joho bunseki to patent map", THE JOURNAL OF INFORMATION SCIENCE AND TECHNOLOGY ASSOCIATION, vol. 53, no. 1, 1 January 2003 (2003-01-01), pages 16 - 21, XP002986874 *
SALTON ET AL.: "Information Processing and Management", vol. 24, 1988, ELSEVIER, article "Term-Weighting Approaches in Automatic Text Retrieval", pages: 513 - 523
See also references of EP1669889A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055580B (zh) * 2006-04-13 2011-10-05 Lg电子株式会社 用于检索文档的系统、方法及用户接口
CN111353301A (zh) * 2020-02-24 2020-06-30 成都网安科技发展有限公司 辅助定密方法及装置

Also Published As

Publication number Publication date
KR20060079792A (ko) 2006-07-06
RU2006114689A (ru) 2007-11-20
EP1669889A1 (en) 2006-06-14
AU2004277629A1 (en) 2005-04-14
JPWO2005033972A1 (ja) 2006-12-14
BRPI0415148A (pt) 2006-11-28
CN1856788A (zh) 2006-11-01
US20060294060A1 (en) 2006-12-28
RU2344474C2 (ru) 2009-01-20
EP1669889A4 (en) 2007-10-31
CA2540661A1 (en) 2005-04-14

Similar Documents

Publication Publication Date Title
WO2005033972A1 (ja) 類似率算出装置並びに類似率算出プログラム
Rudkowsky et al. More than bags of words: Sentiment analysis with word embeddings
Blasi et al. Grammars are robustly transmitted even during the emergence of creole languages
Caselli et al. The road to language learning is not entirely iconic: Iconicity, neighborhood density, and frequency facilitate acquisition of sign language
Aguinis et al. Best-practice recommendations for defining, identifying, and handling outliers
De Queiroz Ernst Mayr and the modern concept of species
Ludwick et al. An improved methodology for advancing nursing research: Factorial surveys
Walker et al. Cross-sensory correspondences: Heaviness is dark and low-pitched
Warriner et al. Affective biases in English are bi-dimensional
Lind et al. Norwegian Words: A lexical database for clinicians and researchers
Marelli Word-Embeddings Italian Semantic Spaces: A semantic model for psycholinguistic research
Omran et al. Transfer learning and sentiment analysis of Bahraini dialects sequential text data using multilingual deep learning approach
Iacobucci et al. How to calculate, use, and report variance explained effect size indices and not die trying
Hester et al. Perceived femininity and masculinity contribute independently to facial impressions.
Lawson et al. Free classification of large sets of everyday objects is more thematic than taxonomic
Kirkegaard et al. Biogeographic ancestry, cognitive ability and socioeconomic outcomes
Günther et al. Trying to make it work: Compositional effects in the processing of compound “nonwords”
Wang et al. When do words matter? Understanding the impact of lexical choice on audience perception using individual treatment effect estimation
Kourou et al. Cohort harmonization and integrative analysis from a biomedical engineering perspective
Lancaster et al. Selective visual attention skills differentially predict decoding and reading comprehension performance across reading ability profiles
Albouy et al. Spectro-temporal acoustical markers differentiate speech from song across cultures
Hameau et al. Effects of semantic neighbourhood density on spoken word production
Hassanzadeh et al. Quantifying semantic similarity of clinical evidence in the biomedical literature to facilitate related evidence synthesis
Shamir UDAT: Compound quantitative analysis of text using machine learning
CN109977231B (zh) 一种基于情感衰变因子的抑郁情绪分析方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200480027224.6

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020067002688

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2006294060

Country of ref document: US

Ref document number: 2005514348

Country of ref document: JP

Ref document number: 10573778

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2540661

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 2004724188

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2292/DELNP/2006

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2004277629

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: 2006114689

Country of ref document: RU

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2004277629

Country of ref document: AU

Date of ref document: 20040329

Kind code of ref document: A

WWP Wipo information: published in national office

Ref document number: 2004724188

Country of ref document: EP

ENP Entry into the national phase

Ref document number: PI0415148

Country of ref document: BR

WWP Wipo information: published in national office

Ref document number: 10573778

Country of ref document: US